# Forget Gate in LSTM | Deep Learning

## Метаданные

- **Канал:** Gate Smashers
- **YouTube:** https://www.youtube.com/watch?v=E8f6vyuxb9A
- **Дата:** 08.05.2026
- **Длительность:** 11:02
- **Просмотры:** 815
- **Источник:** https://ekstraktznaniy.ru/video/50030

## Описание

Understand the Forget Gate in LSTM and how it helps neural networks decide what information should be kept or discarded from memory. This video explains the working of the Forget Gate with simple concepts, making Deep Learning and LSTM easier to understand for beginners.

🔹 Gate Smashers Shorts: 
     Watch quick concepts & short videos here:
      https://www.youtube.com/@GateSmashersShorts

🔹 Subscribe for more shorts and motivational content:  
      https://www.youtube.com/@varunainashots

Subject-wise playlist Links:
--------------------------------------------------------------------------------------------------------------------------------------
►Design and Analysis of algorithms (DAA):
https://www.youtube.com/playlist?list=PLxCzCOWd7aiHcmS4i14bI0VrMbZTUvlTa
►Software Engineering (Complete Playlist):
https://www.youtube.com/playlist?list=PLxCzCOWd7aiEed7SKZBnC6ypFDWYLRvB2
►Database Management System:
https://www.youtube.com/playlist?list=PLxCzCOWd7aiFAN6I8CuViBuCdJgiOkT2Y
►Clo

## Транскрипт

### Segment 1 (00:00 - 05:00) []

डियर स्टूडेंट्स, वेलकम टू गेट मेसर्स। आज के इस वीडियो में एक्सप्लेन करने जा रहा हूं वन ऑफ द मोस्ट इंपोर्टेंट टॉपिक ऑफ़ एलएसटीएम। और यहां पे मैं पहले ही बता दूं कि यार लास्ट वीडियो में मैंने इंट्रोडक्शन टू एलएसटीएम में मैंने बेसिक आर्किटेक्चर बताया था कि यार मेरा एलएसटीएम का आर्किटेक्चर होता कैसे है? और आर एनएन से ये किस तरीके से अलग है। आरएनएन के अंदर हमने सिर्फ और सिर्फ शॉर्ट टर्म मेमोरी की बात की थी। लेकिन जैसे-जैसे हमारे सेंटेंसेस बड़े होते जाएंगे, पैराग्राफ्स जाते जाएंगे तो कहीं ना कहीं मेरा आरएन वहां पे फेल हो जाता है। तो इसीलिए हम लोग लॉन्ग शॉर्ट टर्म मेमोरी का कांसेप्ट यूज़ करते हैं जिसको हम एलएसटीएम बोलते हैं। अब यार ये जो एलएसटीएम का आर्किटेक्चर था अब इस एलएसटीएम का आर्किटेक्चर को एक्चुअली तीन पार्ट्स में डिवाइड किया हुआ है। ये भी मैंने वैसे तो लास्ट वीडियो में बताया था। बट फिर से बता देता हूं यहां पे। हमारे पास जो पहला कांसेप्ट है यहां से लेके यहां तक का अगर आपको दिख रहा हो ये वाला जो कांसेप्ट है इसको बोलते हैं फॉरगेट गेट। क्या बोलते हैं? फॉरगेट गेट। फॉरगेट का मतलब क्या है? कि भैया जो डेटा मुझे फ्यूचर के लिए नहीं चाहिए। मैंने पिछले कुछ टाइम से उसको संभाल के रखा हुआ है। लेकिन मैं चाहता हूं कि यार मैं कुछ इंफॉर्मेशन उसमें से मिस आउट कर जाऊं। जैसे बचपन से ले अब तक आपने बहुत सारे इवेंट्स देखे हैं। बहुत सारी चीजें देखी हैं। ठीक है? बहुत सारी चीजें आपको याद भी होंगी लेकिन उनमें से बहुत सारी चीजें आपने अपने माइंड से ऑटोमेटिकली निकल गई होंगी। उसका रीज़न क्या है? क्योंकि आप कितनी इंफॉर्मेशन को स्टोर कर सकते हो। तो कहीं ना कहीं मुझे न्यू इनफार्मेशन को भी तो ऐड करना है ना। तो मुझे उसके लिए भी स्पेस चाहिए। तो इसीलिए पुरानी इनफार्मेशन में हम कुछ इनफार्मेशन तो रखेंगे। कुछ को हम भूलते जाएंगे। इसको बोलते हैं फॉर्गेट। फिर उसके बाद हमारे पास आता है जी इनपुट वाला कांसेप्ट। इनपुट का मतलब क्या है? ये जो रेड कलर में दिखा रहा हूं, इतनाइतना कांसेप्ट क्या है? इनपुट का। इनपुट का सिंपल सा मतलब है कि भैया मुझे नई इनेशन को ऐड करना है तो मैं यहां से करूंगा। और फिर फाइनली आउटपुट में क्या दिखाना है? आउटपुट में क्या रिप्रेजेंट करना है? वो मेरा आउटपुट वाला जो गेट है वो रिप्रेजेंट करता है। लेकिन इस वीडियो में सबसे पहले हम लोग बात करेंगे फॉरगेट गेट की कि भैया मेरे से पिछला जो है वो लॉन्ग टर्म मेमोरी और शॉर्ट टर्म मेमोरी आ रही है। बट मुझे क्या इंफॉर्मेशनेशन को अपने दिमाग से फॉरगेट करवाना है और फिर मैं नई इनेशन को उसमें ऐड कर सकूं। तो फॉरगेट गेट किस तरीके से काम करता है इसको समझो। तो मैं सबसे पहले फॉरगेट गेट को ज़ूम करता हूं या इसको हाईलाइट करता हूं। तो जब मैं इसको हाईलाइट करता हूं तो ये इस तरीके से दिखेगा। इसको अच्छे से आप नोट कर लो। देखो ध्यान से फॉरगेट वाले में मेरे पास क्या आ रहा है? आपको ऑलरेडी पता है कि ये जो मेरा सीटी - 1 जो पीछे से आ रहा है इसको हम क्या बोलते हैं? इसको बोलते हैं लॉन्ग टर्म मेमोरी। मतलब लॉन्ग टर्म के लिए जो चीजें इनेशन सेव कर रहे हैं दैट इज़ एलटीएम। और ये मेरा क्या है? जी आपका शॉर्ट टर्म मेमोरी जिसको मैं क्या बोल रहा हूं? एच टी वाला। ठीक है? अब एच शॉर्ट टर्म है और मेरा जो सीटी है दैट इज लॉन्ग टर्म मेमोरी जिसको मैं सेल स्टेट भी बोल देता हूं और इसको मैं हिडन हूं। मेन इनेशन अब आपको क्या देखनी है? लेट्स सपोज़ मैं इनपुट देता जा रहा हूं। वही वाला एग्जांपल ले लेते हैं क्रिकेट वाला कि सचिन वाज़ अ लेजेंड्री क्रिकेटर। ही मेड लॉट ऑफ़ रिकॉर्ड्स। ही मेड एक्स नंबर ऑफ़ सेंचुरीज़। ही मेड Y नंबर ऑफ़ 50ज़। तो यार मैं जो इनेशन यहां पे देता जा रहा हूं वो मेरी क्या है? इनपुट है। अब इनपुट को अगर आप ध्यान से देखो फॉरगेट गेट में क्या हो रहा है? इनपुट यहां से जा रही है। जो मैं इनपुट यूजर दे रहा है। अब इस इनपुट के साथ क्या हो रहा है? जो शॉर्ट टर्म मेमोरी जो पीछे से मेरा एच टी आ रहा है। पीछे से जो मेरा एचटी आ रहा है। अगर स्टार्टिंग की वैल्यू है तो स्टार्टिंग में तो हम रैंडमली ले लेंगे कुछ भी वैल्यू। लेकिन अगर लेट्स सपोज कोई बीच का इंटरमीडिएटर स्टेट है तो उसमें हो सकता है पीछे वाली स्टेट से कोई वैल्यूज़ आ रही हो। और आपको पता है हम लोग करते क्या है? कुछ रैंडम वैल्यू से स्टार्ट करते हैं। बाद में अगर मुझे लगता है कि मेरा मॉडल सही आउटपुट नहीं दे रहा तो हम बैक प्रोपगेशन करके हम वो सारी वैल्यूज़ को दोबारा से चेंज करते हैं। मॉडल को ट्रेन करते हैं। तो वो चीज हमें पता है। लेकिन हम लोग यहां पे सिर्फ मेन फोकस किसके ऊपर कर रहे हैं कि भैया मैं यहां पे क्या कैलकुलेट कर रहा हूं? तो ध्यान से देखो सबसे पहले मैं इनपुट में क्या दे रहा हूं? जो टेक्स्ट इनपुट मैं देता जा रहा हूं यहां पे एज ए वेक्टर मुझे वो देनी है। ठीक है? तो लेट्स सपोज मैं xt की वैल्यू ले लेता हूं। मैं कोई भी फोर डायमेंशनल डेटा ले लेता हूं। x1, x2 मैं यहां पे लिख देता हूं। x1, x2, x3 एंड x4 तो इस तरीके से मेरा फोर डायमेंशनल डेटा मतलब रियल टाइम में 100 डायमेंशन भी हो सकता है ये। बट मैं छोटा सा एग्जांपल ले रहा हूं। फोर डायमेंशन डेटा मैं यहां पे दे रहा हूं। और ये यहां पे मेरे पास जो है वो क्या है? शॉर्ट टर्म जो एच टी है। वो लेट्स सपोज मैं ले लेता हूं। इसको भी फोर डायमेंशन ले लेते हैं। मतलब H1, H2, H3 एंड H4 लेट्स सपोज ये भी मेरा फोर डायमेंशन डेटा है। तो यहां पे देखो सबसे पहले क्या हो रहा है? इनपुट आ रही है और शॉर्ट टर्म मेमोरी हिडन स्टेट आ रही है। और इन दोनों के बीच में क्या हो रहा है यहां पे? सिग्मोयड। सिग्माइड का मतलब क्या है? अगेन ये क्या है? एक तरह से हिडन स्टेट्स है। तो यहां पे इक्वेशन में अगर आप ध्यान से देखो अंदर वाले में हम लोग क्या कर रहे हैं? ये मेरा हिडन वाली जो यहां से डेटा आ रहा है और ये मेरा क्या है? जी जो मैं इनपुट दे रहा हूं। तो एग्जांपल के तौर पे लेट्स सपोज मैं बना

### Segment 2 (05:00 - 10:00) [5:00]

लेता हूं कि ये मेरा x1 है। ये मेरा x2 है। ये मेरा x3 है। ये मेरा x4 है। मतलब मैंने फोर डायमेंशनल इनपुट ले लिया। अब यहां पे मेरा क्या है? फोर डायमेंशन ही लेट्स सपोज हिडन है। अब थ्री डायमेंशन फाइव डायमेंशन कुछ मर्जी ले लो। एग्जांपल के तौर पे एक बार हमें समझना है इसको। तो लेट्स सपोज मैंने फोर डायमेंशन हमारा हिडन वाला भी ले लिया। तो यहां पे मैंने दोनों को एक तरह से क्या कर लिया? दोनों को कंबाइनली यूज़ किया। क्योंकि जो मैं प्रोसेस कर रहा हूं उसमें मेरा इनपुट आ रहा है और हिडन आ रहा है। तो मेरा लेट्स सपोज फोर डायमेंशन ये था। तो एक तरह से 4 + 4 यहां पे 8 * 1 डायमेंशन मेरा डेटा हो गया। मतलब मेरा टोटल जो है वो 8 * 1 का डायमेंशनल डेटा हो गया। कौन सा जो मैं इनपुट के तौर पे दे रहा हूं। अब इसको मैं मल्टीप्लाई किसके साथ कर रहा हूं? WF दैट इज़ व्हाट? वेट। अब वेट क्या है? अगर आप ये सिग्माइड देख रहे हो, ये सिग्माोयॉयड एक्चुअल में क्या है? हिडन स्टेट्स की वैल्यूज़ हैं। हिडन स्टेट्स यहां पे लेट्स सपोज जो न्यूरल नेटवर्क में हम लोग करते हैं। मैंने लेट्स सपोज यहां पे एक ये लेयर ले ली। ली और एक ये लेयर। मतलब मैंने तीन लेयर्स ले ली यहां पे। तो होगा क्या? X1 को हम इस तरीके से सबके साथ कनेक्ट करेंगे। X2 को X3 सबको सबके साथ कनेक्ट करेंगे। मतलब फुल्ली कनेक्टेड बनाएंगे। तो आप खुद बताओ अगर मेरा यहां पे 8 * 1 का है और यहां पे मेरी थ्री है तो टोटल मेरे पास 8 * 3 कितने यहां पे वेट्स हो जाएंगे? 24 मेरे वेट्स हो जाएंगे। तो यानी इतने वेट्स को आपको मैनेज करना पड़ेगा। ये जो सिग्माोइड है ये इसको रिप्रेजेंट कर रहा है कि भैया आपने कितने यहां पे सिग्माोइड के वैल्यूज को लेना है। तो मैंने थ्री ले लिया। फोर लेते हो तो 8 * 4 जो है वो हो जाएगा। फाइव लेते हो तो 8 * 5 हो जाएगा। वो डिपेंड करता है जस्ट एक वैल्यू से हमें समझना है इसको। तो अगर आप ध्यान से देखो मैंने 8 * 1 का यहां पे ये वाला डेटा उठाया। अब मेरा जो वेट है वो वेट मेरा क्या हो गया? एक तरह से 3 * 8 का। मतलब 24 मेरे वेट्स हो गए। इन दोनों को हमने क्या कर दिया जी? मल्टीप्लाई कर दिया। जब मैं इन दोनों को मल्टीप्लाई करूंगा अगर आपके पास लेट्स सपोज एक मैट्रिक्स है 3 * 8 की और एक मैट्रिक्स है 8 * 1 की। आपको पता है ये दोनों क्या है? सेम है। तो ऑब्वियसली जो आउटपुट आएगा वो 3 * 1 का आएगा। आप यहां से भी देख सकते हो यार। मैंने सों को फुल्ली कनेक्टेड कर दिया। एक ये आउटपुट देगा, एक ये आउटपुट देगा और एक ये मेरा आउटपुट देगा। तो ये 3 * 1 का ही तो आउटपुट आएगा। ये जो 3 * 1 का आउटपुट आ रहा है। मतलब मेरे तीन डायमेंशन आ रहे हैं जिसको मैं f1, f2 एंड f3 ले सकता हूं। इसी को हम क्या बोल रहे हैं यहां पे? FT कैलकुलेशन बोल रहे हैं। जिसको मैंने यहां पे इक्वेशन में लिखा है ft। हां, एक चीज और इसमें क्या कर रहे हैं? बीएफ। ये बीएफ क्या है? बायसिस। आपको पता है हर एक यहां पे हिडन लेयर का क्या होता है? एक बायस होता है। हर एक स्टेट तो वो जो बायस है वो आप ऐड कर दो। इसका B1 B2 ऐड कर दो। इसका B3 तो 3 * 1 की मेरी आउटपुट आ रही है। उसमें मैं 3 * 1 का ही क्या कर दूं? बायस ऐड कर दूं। तो आउटपुट तो मेरी 3 * 1 की ही आएगी। एडिशन ही तो करना है। बायस को सिंपली ऐड तो यहां पे मेरी इस तरीके से फाइनली FT की वैल्यू आती है। एग्जांपल के तौर पे मैं FT की वैल्यू ले लेता हूं। 9 0. 5 एंड लेट्स सपोज यह आ रही है 0. 1 एग्जांपल के तौर पे अगर मैं यह ले लेता हूं। ठीक है? अब यहां पे अगर आप ध्यान से देखो यह मेरा डायमेंशन डेटा आ गया। ऊपर से मेरा क्या आ रहा है जी? c - 1 मतलब मेरा पीछे से जो लॉन्ग स्टेट मेमोरी आ रही है जो मैंने ऑलरेडी चीजें याद रखी हुई हैं वो डेटा आ रहा है। ये भी तो क्या होगा? वेक्टर ही होगा। लेट्स सपोज इस वेक्टर को मैं ले लेता हूं। एग्जांपल के तौर पे इस वेक्टर को भी मैं थ्री डायमेंशनल डेटा ले लेता हूं। अह कुछ भी डेटा ले लो। चलो लेट्स सपोज इसको ले लेते हैं जी हम सिक्स से एट एंड लेट्स सपोज फोर ठीक है एग्जांपल के तौर पे कुछ भी क्योंकि जो भी डेटा होगा टेक्स्ट की फॉर्म में तो होगा नहीं होगा तो नंबर्स मैंने जो लॉन्ग टर्म डेटा आ रहा है और जो एफटी आ रहा है इन दोनों को पॉइंट वाइज ऑपरेटर में डाल के मल्टीप्लाई कर दिया। तो अगर आप ध्यान से देखो 9 * 6 करोगे तो वैल्यू सिक्स के अराउंड ही कुछ आएगी। यानी इसका मतलब क्या है कि इस डेटा को जो भी ये रिप्रेजेंट कर रहा है मुझे नहीं पता ये टेक्स्ट में क्या है अभी लेकिन जो भी है ना इसको लेके रखो अभी इसको आगे भुलाओ मत इसको आगे लेके चलो एग्जांपल के तौर पे नेक्स्ट क्या है एट और यहां पे क्या है नेक्स्ट फाइव तो 8 *5 करोगे तो क्या आंसर आ जाएगा फोर मतलब जो भी आपने मेमोरी में स्टोर किया हुआ है उसको हाफ कर दो मतलब उसमें से कुछ इनफार्मेशन भूल जाओ कुछ इंफॉर्मेशन रखो जैसे सचिन तेंदुलकर वाला ये लेट्स सपोज सचिन तेंदुलकर को रिप्रेजेंट कर रहा तो मैंने क्या किया सचिन न मतलब ये हाईली रेलेवेंट है मुझे आगे भी इसकी जरूरत पड़ेगी दिमाग में इसको स्टोर करके रखो सचिन को फिर 8 *5 लेट्स सपोज ये एट रिप्रेजेंट कर रहा था कुछ भी नंबर ऑफ सेंचुरीज कह लो या नंबर ऑफ हाफ सेंचुरीज कह लो तो मैंने उसमें से हाफ इनेशन याद रखी आगे पास की बाकी की इनफार्मेशन मैंने छोड़ा रहने दो यार बस एक सेंचुरीज याद रख लो कि टोटल इतनी सेंचुरीज बनाई है हाफ सेंचुरीज को भूल जाओ फिर आ गया जी फोर 4

### Segment 3 (10:00 - 11:00) [10:00]

*1 जब फोर 4 * 1 करोगे या जीरो से मल्टीप्लाई करोगे कुछ भी वैल्यू यहां पे आती है वो वैल्यू क्या हो गई डाउन हो गई वो डाउन का मतलब है कि इस इनेशन का आगे कोई रेलेवेंस नहीं है आप इंफॉर्मेशन को भूल भी सकते हो तो कहने का मतलब क्या है कि भैया जो भी मेरी एफटी की वैल्यू आ रही है वो पुरानी जो लॉन्ग स्टेट मेमोरी से मल्टीप्लाई हो के डिसाइड करती है कि आगे क्या जाएगा और क्या यहीं पे रुक जाएगा। इसीलिए इसको क्या बोला जाता है? फॉरगेट गेट। तो ये कैलकुलेशन याद रखना एक एग्जांपल के तौर पे जस्ट मैंने आपको समझाया है कि ये इक्वेशन किस तरीके से काम करती है। है बहुत इंपॉर्टेंट लेकिन वही है कि इन केस थोड़ा सा भी आपको लग रहा है नहीं समझ में आया दोबारा रिवाइंड करके सुनना पक्का समझ में आ जाएगा। नेक्स्ट वीडियो में हम लोग बात करेंगे इनपुट गेट की कि भैया ये जो यहां से लॉन्ग स्टेट में आ रही है और इधर से इनपुट आ रही है ये कैसे ऐड हो। [घंटी की आवाज़]
