কীভাবে এলএসটিএম বিলুপ্ত গ্রেডিয়েন্ট সমস্যা রোধ করে?

35

এলএসটিএম উদ্ভাবিত গ্রেডিয়েন্ট সমস্যা এড়াতে বিশেষত উদ্ভাবিত হয়েছিল। এটি কনস্ট্যান্ট ত্রুটি ক্যারোসেল (সিইসি) দিয়ে করার কথা রয়েছে, যা নীচের চিত্রটিতে ( গ্রিফ এট আল। থেকে ) ঘরের চারপাশের লুপের সাথে মিল রয়েছে ।

_{(সূত্র: ডিপলাইনিং ৪ জ.আর.আর )}

এবং আমি বুঝতে পারি যে অংশটি একটি পরিচয় ফাংশনের ধরণের হিসাবে দেখা যেতে পারে, সুতরাং ডেরাইভেটিভ এক এবং গ্রেডিয়েন্ট স্থির থাকে।

আমি যা বুঝতে পারি না তা হল অন্যান্য অ্যাক্টিভেশন ফাংশনগুলির কারণে এটি কীভাবে বিলুপ্ত হয় না? ইনপুট, আউটপুট এবং ভুলে যাওয়া গেটগুলি একটি সিগময়েড ব্যবহার করে, যা ডেরাইভেটিভ সর্বাধিক 0.25 হয় এবং জি এবং এইচ প্রথাগতভাবে তানহ ছিল । এইগুলির মাধ্যমে কীভাবে ব্যাকপ্রোপেটিং গ্রেডিয়েন্টটি বিলুপ্ত হয় না?

neural-networks lstm

— TheWalkingCube
সূত্র

2

এলএসটিএম একটি পুনরাবৃত্ত নিউরাল নেটওয়ার্ক মডেল যা দীর্ঘমেয়াদী নির্ভরতা স্মরণে অত্যন্ত দক্ষ এবং এটি বিলীন গ্রেডিয়েন্ট সমস্যার পক্ষে ঝুঁকিপূর্ণ নয়। আপনি কী ধরণের ব্যাখ্যা খুঁজছেন তা আমি নিশ্চিত নই

— TheWalkingCube

এলএসটিএম: দীর্ঘ স্বল্প-মেয়াদী মেমরি। (সূত্র: Hochreiter এস এবং Schmidhuber, জে (1997) লং স্বল্প মেয়াদী মেমরি নিউরাল গণনা 9 (8)।। 1735-80 · ডিসেম্বর 1997)

— horaceT

এলএসটিএম-এর গ্রেডিয়েন্টগুলি ভ্যানিলা আরএনএনগুলির তুলনায় ধীর গতিতে বিলুপ্ত হয়, তাদের আরও দূরবর্তী নির্ভরতা ধরতে সক্ষম করে। বিলুপ্ত গ্রেডিয়েন্টগুলির সমস্যা এড়ানো এখনও সক্রিয় গবেষণার ক্ষেত্র।

— আর্টেম সোব্লেভ

1

একটি রেফারেন্স সহ ধীর গুম হওয়া ব্যাক আপ?

— বায়ারজ

সম্পর্কিত: quora.com/…

— পিনোকিও

22

অদৃশ্য গ্রেডিয়েন্টটি এক-মাত্রিক ক্ষেত্রে সর্বোত্তমভাবে ব্যাখ্যা করা হয়েছে। বহুমাত্রিক আরও জটিল তবে মূলত সাদৃশ্যপূর্ণ। আপনি এই দুর্দান্ত কাগজে এটি পর্যালোচনা করতে পারেন [1]।

ধরে আমরা একটি গোপন রাষ্ট্র আছে সময় পদে পদে । আমরা যদি জিনিসগুলিকে সহজ করে এবং পক্ষপাত এবং ইনপুটগুলি সরিয়ে তারপরে আপনি এটি প্রদর্শন করতে পারেন $h_t$ $t$

জ_{টি} = σ (W জ_{টি - 1}) ।

$h_t = \sigma(w h_{t-1}).$

\begin{aligned} \frac{\partial জ_{{টি}^{'}}}{\partial জ_{টি}} & = Π_{ট = 1}^{{টি}^{'} - টি} W σ^{'} (W জ_{{টি}^{'} - ট}) \\ = \underset{!!!}{\underset{⏟}{W^{{টি}^{'} - টি}}} Π_{ট = 1}^{{টি}^{'} - টি} σ^{'} (W জ_{{টি}^{'} - ট}) \end{aligned}

$\begin{align} \frac{\partial h_{t'}}{\partial h_t} &= \prod_{k=1}^{t' - t} w \sigma'(w h_{t'-k})\\ &= \underbrace{w^{t' - t}}_{!!!}\prod_{k=1}^{t' - t} \sigma'(w h_{t'-k}) \end{align}$ সাথে চিহ্নিত ফ্যাক্টর !!! অত্যন্ত গুরুত্বপূর্ণ। ওজন 1 এর সমান না থাকে, এটা হয় শুন্যতে ব্যাখ্যা মূলকভাবে দ্রুত ক্ষয়ে যাবে, , বা ব্যাখ্যা মূলকভাবে ফাস্ট হত্তয়া $t'-t$ ।

LSTM- এ আপনার সেল স্টেট । ব্যুৎপন্ন ফর্ম নেই এখানে হ'ল ভুলে যাওয়া গেটের ইনপুট। আপনি দেখতে পাচ্ছেন, এতে কোনও দ্রুত ক্ষয়কারী ফ্যাক্টর জড়িত নেই। ফলস্বরূপ, কমপক্ষে একটি পথ রয়েছে যেখানে গ্রেডিয়েন্টটি বিলুপ্ত হয় না। সম্পূর্ণ বিকাশের জন্য, দেখুন [২]। $s_t$

\frac{\partial {গুলি}_{{টি}^{'}}}{\partial {গুলি}_{টি}} = Π_{ট = 1}^{{টি}^{'} - টি} σ ({বনাম}_{টি + + ট}) ।

$\frac{\partial s_{t'}}{\partial s_t} = \prod_{k=1}^{t' - t} \sigma(v_{t+k}).$

v_{t}

$v_t$

[1] পাসকানু, রাজভান, টমাস মিকোলভ এবং যোশুয়া বেনজিও। "পুনরাবৃত্ত নিউরাল নেটওয়ার্ক প্রশিক্ষণের অসুবিধা সম্পর্কে"। আইসিএমএল (3) 28 (2013): 1310-1318।

[২] বায়ার, জাস্টিন সাইমন। সিকোয়েন্স প্রতিনিধিত্ব শেখা। Diss,। মেনচেন, টেকনিশে ইউনিভার্সিটি মেনচেন, ডিস, 2015, 2015।

— bayerj
সূত্র

3

Lstm এর জন্য, h_t এছাড়াও h_ {t-1} এর উপর নির্ভর করে না? আপনি যখন ds_t / d_s {t-1} "ধীরে ধীরে গ্রেডিয়েন্টগুলি সময়ের সাথে প্রবাহিত হন" বলছেন তখন আপনার কাগজে আপনার অর্থ কী?

— ব্যবহারকারী3243135

@ user3243135 h_t h_ {t-1 on এর উপর নির্ভর করে} তবে, ধরুন ds_t / d_s {t-1} রাখা আছে, এমনকি যদি অন্য গ্রেডিয়েন্ট প্রবাহিত হয়, পুরো গ্রেডিয়েন্ট প্রবাহটি বিলুপ্ত হয় না। এটি ধীরে ধীরে বিলীন হওয়া সমাধান করে।

— সল্ট করুন

আমি সর্বদা ভাবতাম যে মূল সমস্যাটি হ'ল কারণ যদি সাধারণত সিগময়েড (বা কিছু 1 এর চেয়ে কম ব্যুৎপন্ন সাথে) যা নিশ্চিত হওয়ার জন্য নিখোঁজ গ্রেডিয়েন্টের কারণ হয়ে দাঁড়ায় (উদাহরণস্বরূপ সিগময়েডগুলি <1 परिमाणের হয় এবং তাদের ডেরাইভেটিভটি যা < নিশ্চিত 1)। তাই কি সিএনএন-তে রিএলইউ গ্রহণযোগ্য হয়? এটি এমন একটি জিনিস যা আমাকে ফিড ফরোয়ার্ড মডেল বনাম পুনরুক্ত মডেলগুলিতে কীভাবে বিন্যাসযোগ্য গ্রেডিয়েন্টকে সম্বোধন করা হয়েছিল তার পার্থক্যে আমাকে সর্বদা বিভ্রান্ত করে। এর জন্য কোন ব্যাখ্যা?

\overset{{টি}^{'} - টি}{Π} σ^{'} (W জ_{{টি}^{'} - ট})

$\prod^{t'-t} \sigma'(w h_{t'-k} )$

σ^{'} (z)

$\sigma'(z)$

σ^{'} (x) = σ (z) (1 - σ (z))

$\sigma'(x) = \sigma(z) (1 - \sigma(z))$

— পিনোকিও

সিগময়েডের গ্রেডিয়েন্ট একটি সমস্যাও হতে পারে, বড় বৈকল্পিক এবং / অথবা 0 থেকে দূরে ইনপুটগুলির বন্টন ধরে নিয়েছে তবে যাইহোক, আপনি রিএলইউ ব্যবহার করলেও মূল সমস্যাটি অব্যাহত থাকে: ম্যাট্রিক্সের সাথে বারবার গুণ করা (সাধারণত ছোট ) গ্রেডিয়েন্টগুলি অদৃশ্য হয়ে যায় বা কিছু ক্ষেত্রে, যেখানে নিয়মিতকরণ পর্যাপ্ত হয়নি, গ্রেডিয়েন্ট বিস্ফোরিত হয়।

— আটাকাসিয়াস

3

গ্রেফ এট এল থেকে এলএসটিএম ব্লকের ছবি। (2015) একটি বৈকল্পিক বর্ণনা করে যা লেখকরা ভ্যানিলা এলএসটিএম বলে । এটি Hochreiter & Schmidhuber (1997) এর আসল সংজ্ঞা থেকে কিছুটা আলাদা। আসল সংজ্ঞাটিতে ভুলে যাওয়া গেট এবং পীফোল সংযোগ অন্তর্ভুক্ত হয়নি।

কনস্ট্যান্ট ত্রুটি ক্যারোসেল শব্দটি মূল কাগজে কোষের রাজ্যের পুনরাবৃত্ত সংযোগ বোঝাতে ব্যবহৃত হয়েছিল। মূল সংজ্ঞাটি বিবেচনা করুন যেখানে কেবলমাত্র ইনপুট গেটটি খোলার সাথে সাথে সেল স্টেটটি পরিবর্তিত হয়। পূর্ববর্তী সময়ে পদক্ষেপে কোষের রাজ্যের বিষয়ে ঘরের রাজ্যের গ্রেডিয়েন্ট শূন্য।

ত্রুটি এখনও আউটপুট গেট এবং অ্যাক্টিভেশন ফাংশন দিয়ে সিইসি প্রবেশ করতে পারে। অ্যাক্টিভেশন ফাংশন সিইসিতে যুক্ত হওয়ার আগে ত্রুটির পরিমাণটি কিছুটা কমিয়ে দেয়। সিইসি হ'ল একমাত্র জায়গা যেখানে ত্রুটি অপরিবর্তিত থাকতে পারে। আবার, যখন ইনপুট গেটটি খোলে, ত্রুটিটির তীব্রতা হ্রাস করে ইনপুট গেট, অ্যাক্টিভেশন ফাংশন এবং অ্যাফাইন রূপান্তরকরণের মাধ্যমে ত্রুটিটি প্রস্থান করে।

সুতরাং ত্রুটিটি হ্রাস করা হয় যখন এটি কোনও এলএসটিএম স্তরের মাধ্যমে ব্যাকপ্রকাশিত হয়, তবে কেবলমাত্র যখন এটি সিইসিতে প্রবেশ করে এবং প্রস্থান করে। গুরুত্বপূর্ণ বিষয়টি এটি হ'ল সিইসি-তে যতই দূরত্ব ভ্রমণ হোক না কেন এটি পরিবর্তিত হয় না। এটি মৌলিক আরএনএন-তে সমস্যাটি সমাধান করে যে প্রতিবার পদক্ষেপটি একটি অ্যাফাইন ট্রান্সফর্মেশন এবং অলাইনারিটির প্রয়োগ করে, যার অর্থ ইনপুট এবং আউটপুটটির মধ্যে দীর্ঘ সময়ের দূরত্ব যত তত ত্রুটি তত ছোট হয়।

— সেপ্পো এনারভি
সূত্র

2

http://www.felixgers.de/papers/phd.pdf অনুগ্রহ করে অনুচ্ছেদ 2.2 এবং 3.2.2 দেখুন যেখানে সংক্ষিপ্ততর ত্রুটির অংশটি ব্যাখ্যা করা হয়েছে। তারা ত্রুটিটি প্রচার করে না যদি এটি সেল মেমরি থেকে বেরিয়ে যায় (যেমন যদি কোনও বন্ধ / সক্রিয় ইনপুট গেট থাকে) তবে তারা কেবলমাত্র তত্ক্ষণাত্ ত্রুটির ভিত্তিতে গেটের ওজন আপডেট করে update পরে এটি আরও পিছনে প্রচারের সময় শূন্য করা হয়। এটি হ্যাক জাতীয় ধরণের তবে এর কারণটি হ'ল গেটগুলি ধরে ত্রুটিটি প্রবাহিত হওয়া সময়ের সাথে সাথে যেভাবেই ক্ষয় হয়।

— সুরেশ
সূত্র

7

আপনি কি এই উপর একটু প্রসারিত করতে পারেন? এই মুহুর্তে, লিঙ্কের অবস্থান পরিবর্তন হয় বা কাগজটি অফলাইনে নেওয়া হলে উত্তরের কোনও মূল্য থাকবে না। খুব কমপক্ষে এটি একটি সম্পূর্ণ উদ্ধৃতি (রেফারেন্স) দিতে সহায়তা করবে যা লিঙ্কটি কাজ করা বন্ধ করে দিলে আবার কাগজটি খুঁজে পাওয়ার অনুমতি দেবে, তবে একটি সংক্ষিপ্তসার যা এই উত্তরটিকে স্ব-অন্তর্নিহিত করে তোলে তা সেরা হবে।

— সিলভারফিশ

2

আমি স্বীকৃত উত্তরের সাথে কিছু বিশদ যুক্ত করতে চাই, কারণ আমি মনে করি এটি আরও কিছুটা উপদ্রবযুক্ত এবং প্রথমে আরএনএন সম্পর্কে শিখার কোনও ব্যক্তির কাছে এই উপকারটি স্পষ্ট নাও হতে পারে।

\frac{\partial জ_{{টি}^{'}}}{\partial জ_{টি}} = Π_{ট = 1}^{{টি}^{'} - টি} W σ^{'} (W জ_{{টি}^{'} - ট})

$\frac{\partial h_{t'}}{\partial h_{t}} = \prod _{k=1} ^{t'-t} w \sigma'(w h_{t'-k})$

\frac{\partial {গুলি}_{{টি}^{'}}}{\partial {গুলি}_{টি}} = Π_{ট = 1}^{{টি}^{'} - টি} σ ({বনাম}_{টি + + ট})

$\frac{\partial s_{t'}}{\partial s_{t}} = \prod _{k=1} ^{t'-t} \sigma(v_{t+k})$

$t'-t$
উত্তর হ্যাঁ , এ কারণেই এলএসটিএম গ্রেডিয়েন্টগুলিও লোপ পাবে, তবে ভ্যানিলা আরএনএন-এর মতো প্রায় নয়

$w \sigma'(\cdot)$ $\sigma (\cdot)$

σ (\cdot) \approx 1

$\sigma (\cdot) \approx 1$

v_{t + k} = w x

$v_{t+k} = wx$

w

$w$

x

$x$

w

$w$

$x=1$ $w=10$ $v_{t+k}=10$ $\sigma (\cdot) = 0.99995$

(0,99995)^{{টি}^{'} - টি}

$(0.99995)^{t'-t}$

W σ^{'} (W জ_{{টি}^{'} - ট}) \approx 1

$w \sigma'(w h_{t'-k}) \approx 1$

$h_{t'-k}=1$ $w \sigma'(w*1)$ $0.224$ $w=1.5434$

(0,224)^{{টি}^{'} - টি}

$(0.224)^{t'-t}$

— কেভিন
সূত্র