কীভাবে এলএসটিএম বিলুপ্ত গ্রেডিয়েন্ট সমস্যা রোধ করে?


35

এলএসটিএম উদ্ভাবিত গ্রেডিয়েন্ট সমস্যা এড়াতে বিশেষত উদ্ভাবিত হয়েছিল। এটি কনস্ট্যান্ট ত্রুটি ক্যারোসেল (সিইসি) দিয়ে করার কথা রয়েছে, যা নীচের চিত্রটিতে ( গ্রিফ এট আল। থেকে ) ঘরের চারপাশের লুপের সাথে মিল রয়েছে

LSTM
(সূত্র: ডিপলাইনিং ৪ জ.আর.আর )

এবং আমি বুঝতে পারি যে অংশটি একটি পরিচয় ফাংশনের ধরণের হিসাবে দেখা যেতে পারে, সুতরাং ডেরাইভেটিভ এক এবং গ্রেডিয়েন্ট স্থির থাকে।

আমি যা বুঝতে পারি না তা হল অন্যান্য অ্যাক্টিভেশন ফাংশনগুলির কারণে এটি কীভাবে বিলুপ্ত হয় না? ইনপুট, আউটপুট এবং ভুলে যাওয়া গেটগুলি একটি সিগময়েড ব্যবহার করে, যা ডেরাইভেটিভ সর্বাধিক 0.25 হয় এবং জি এবং এইচ প্রথাগতভাবে তানহ ছিল । এইগুলির মাধ্যমে কীভাবে ব্যাকপ্রোপেটিং গ্রেডিয়েন্টটি বিলুপ্ত হয় না?


2
এলএসটিএম একটি পুনরাবৃত্ত নিউরাল নেটওয়ার্ক মডেল যা দীর্ঘমেয়াদী নির্ভরতা স্মরণে অত্যন্ত দক্ষ এবং এটি বিলীন গ্রেডিয়েন্ট সমস্যার পক্ষে ঝুঁকিপূর্ণ নয়। আপনি কী ধরণের ব্যাখ্যা খুঁজছেন তা আমি নিশ্চিত নই
TheWalkingCube

এলএসটিএম: দীর্ঘ স্বল্প-মেয়াদী মেমরি। (সূত্র: Hochreiter এস এবং Schmidhuber, জে (1997) লং স্বল্প মেয়াদী মেমরি নিউরাল গণনা 9 (8)।। 1735-80 · ডিসেম্বর 1997)
horaceT

এলএসটিএম-এর গ্রেডিয়েন্টগুলি ভ্যানিলা আরএনএনগুলির তুলনায় ধীর গতিতে বিলুপ্ত হয়, তাদের আরও দূরবর্তী নির্ভরতা ধরতে সক্ষম করে। বিলুপ্ত গ্রেডিয়েন্টগুলির সমস্যা এড়ানো এখনও সক্রিয় গবেষণার ক্ষেত্র।
আর্টেম সোব্লেভ

1
একটি রেফারেন্স সহ ধীর গুম হওয়া ব্যাক আপ?
বায়ারজ

সম্পর্কিত: quora.com/…
পিনোকিও

উত্তর:


22

অদৃশ্য গ্রেডিয়েন্টটি এক-মাত্রিক ক্ষেত্রে সর্বোত্তমভাবে ব্যাখ্যা করা হয়েছে। বহুমাত্রিক আরও জটিল তবে মূলত সাদৃশ্যপূর্ণ। আপনি এই দুর্দান্ত কাগজে এটি পর্যালোচনা করতে পারেন [1]।

ধরে আমরা একটি গোপন রাষ্ট্র আছে সময় পদে পদে । আমরা যদি জিনিসগুলিকে সহজ করে এবং পক্ষপাত এবং ইনপুটগুলি সরিয়ে তারপরে আপনি এটি প্রদর্শন করতে পারেন = σ ( W - 1 ) টিটি

টি=σ(Wটি-1)

টি'টি=Π=1টি'-টিWσ'(Wটি'-)=Wটি'-টি!!!Π=1টি'-টিσ'(Wটি'-)
সাথে চিহ্নিত ফ্যাক্টর !!! অত্যন্ত গুরুত্বপূর্ণ। ওজন 1 এর সমান না থাকে, এটা হয় শুন্যতে ব্যাখ্যা মূলকভাবে দ্রুত ক্ষয়ে যাবে, , বা ব্যাখ্যা মূলকভাবে ফাস্ট হত্তয়াটি'-টি

LSTM- এ আপনার সেল স্টেট । ব্যুৎপন্ন ফর্ম নেই এখানে হ'ল ভুলে যাওয়া গেটের ইনপুট। আপনি দেখতে পাচ্ছেন, এতে কোনও দ্রুত ক্ষয়কারী ফ্যাক্টর জড়িত নেই। ফলস্বরূপ, কমপক্ষে একটি পথ রয়েছে যেখানে গ্রেডিয়েন্টটি বিলুপ্ত হয় না। সম্পূর্ণ বিকাশের জন্য, দেখুন [২]।গুলিটিভিটি

গুলিটি'গুলিটি=Π=1টি'-টিσ(বনামটি+ +)
বনামটি

[1] পাসকানু, রাজভান, টমাস মিকোলভ এবং যোশুয়া বেনজিও। "পুনরাবৃত্ত নিউরাল নেটওয়ার্ক প্রশিক্ষণের অসুবিধা সম্পর্কে"। আইসিএমএল (3) 28 (2013): 1310-1318।

[২] বায়ার, জাস্টিন সাইমন। সিকোয়েন্স প্রতিনিধিত্ব শেখা। Diss,। মেনচেন, টেকনিশে ইউনিভার্সিটি মেনচেন, ডিস, 2015, 2015।


3
Lstm এর জন্য, h_t এছাড়াও h_ {t-1} এর উপর নির্ভর করে না? আপনি যখন ds_t / d_s {t-1} "ধীরে ধীরে গ্রেডিয়েন্টগুলি সময়ের সাথে প্রবাহিত হন" বলছেন তখন আপনার কাগজে আপনার অর্থ কী?
ব্যবহারকারী3243135

@ user3243135 h_t h_ {t-1 on এর উপর নির্ভর করে} তবে, ধরুন ds_t / d_s {t-1} রাখা আছে, এমনকি যদি অন্য গ্রেডিয়েন্ট প্রবাহিত হয়, পুরো গ্রেডিয়েন্ট প্রবাহটি বিলুপ্ত হয় না। এটি ধীরে ধীরে বিলীন হওয়া সমাধান করে।
সল্ট করুন

আমি সর্বদা ভাবতাম যে মূল সমস্যাটি হ'ল কারণ যদি সাধারণত সিগময়েড (বা কিছু 1 এর চেয়ে কম ব্যুৎপন্ন সাথে) যা নিশ্চিত হওয়ার জন্য নিখোঁজ গ্রেডিয়েন্টের কারণ হয়ে দাঁড়ায় (উদাহরণস্বরূপ সিগময়েডগুলি <1 परिमाणের হয় এবং তাদের ডেরাইভেটিভটি যা < নিশ্চিত 1)। তাই কি সিএনএন-তে রিএলইউ গ্রহণযোগ্য হয়? এটি এমন একটি জিনিস যা আমাকে ফিড ফরোয়ার্ড মডেল বনাম পুনরুক্ত মডেলগুলিতে কীভাবে বিন্যাসযোগ্য গ্রেডিয়েন্টকে সম্বোধন করা হয়েছিল তার পার্থক্যে আমাকে সর্বদা বিভ্রান্ত করে। এর জন্য কোন ব্যাখ্যা? σ(z)σ(x)=σ(z)(1-σ(z))
Πটি'-টিσ'(Wটি'-)
σ'(z- র)σ'(এক্স)=σ(z- র)(1-σ(z- র))
পিনোকিও

সিগময়েডের গ্রেডিয়েন্ট একটি সমস্যাও হতে পারে, বড় বৈকল্পিক এবং / অথবা 0 থেকে দূরে ইনপুটগুলির বন্টন ধরে নিয়েছে তবে যাইহোক, আপনি রিএলইউ ব্যবহার করলেও মূল সমস্যাটি অব্যাহত থাকে: ম্যাট্রিক্সের সাথে বারবার গুণ করা (সাধারণত ছোট ) গ্রেডিয়েন্টগুলি অদৃশ্য হয়ে যায় বা কিছু ক্ষেত্রে, যেখানে নিয়মিতকরণ পর্যাপ্ত হয়নি, গ্রেডিয়েন্ট বিস্ফোরিত হয়।
আটাকাসিয়াস

3

গ্রেফ এট এল থেকে এলএসটিএম ব্লকের ছবি। (2015) একটি বৈকল্পিক বর্ণনা করে যা লেখকরা ভ্যানিলা এলএসটিএম বলে । এটি Hochreiter & Schmidhuber (1997) এর আসল সংজ্ঞা থেকে কিছুটা আলাদা। আসল সংজ্ঞাটিতে ভুলে যাওয়া গেট এবং পীফোল সংযোগ অন্তর্ভুক্ত হয়নি।

কনস্ট্যান্ট ত্রুটি ক্যারোসেল শব্দটি মূল কাগজে কোষের রাজ্যের পুনরাবৃত্ত সংযোগ বোঝাতে ব্যবহৃত হয়েছিল। মূল সংজ্ঞাটি বিবেচনা করুন যেখানে কেবলমাত্র ইনপুট গেটটি খোলার সাথে সাথে সেল স্টেটটি পরিবর্তিত হয়। পূর্ববর্তী সময়ে পদক্ষেপে কোষের রাজ্যের বিষয়ে ঘরের রাজ্যের গ্রেডিয়েন্ট শূন্য।

ত্রুটি এখনও আউটপুট গেট এবং অ্যাক্টিভেশন ফাংশন দিয়ে সিইসি প্রবেশ করতে পারে। অ্যাক্টিভেশন ফাংশন সিইসিতে যুক্ত হওয়ার আগে ত্রুটির পরিমাণটি কিছুটা কমিয়ে দেয়। সিইসি হ'ল একমাত্র জায়গা যেখানে ত্রুটি অপরিবর্তিত থাকতে পারে। আবার, যখন ইনপুট গেটটি খোলে, ত্রুটিটির তীব্রতা হ্রাস করে ইনপুট গেট, অ্যাক্টিভেশন ফাংশন এবং অ্যাফাইন রূপান্তরকরণের মাধ্যমে ত্রুটিটি প্রস্থান করে।

সুতরাং ত্রুটিটি হ্রাস করা হয় যখন এটি কোনও এলএসটিএম স্তরের মাধ্যমে ব্যাকপ্রকাশিত হয়, তবে কেবলমাত্র যখন এটি সিইসিতে প্রবেশ করে এবং প্রস্থান করে। গুরুত্বপূর্ণ বিষয়টি এটি হ'ল সিইসি-তে যতই দূরত্ব ভ্রমণ হোক না কেন এটি পরিবর্তিত হয় না। এটি মৌলিক আরএনএন-তে সমস্যাটি সমাধান করে যে প্রতিবার পদক্ষেপটি একটি অ্যাফাইন ট্রান্সফর্মেশন এবং অলাইনারিটির প্রয়োগ করে, যার অর্থ ইনপুট এবং আউটপুটটির মধ্যে দীর্ঘ সময়ের দূরত্ব যত তত ত্রুটি তত ছোট হয়।


2

http://www.felixgers.de/papers/phd.pdf অনুগ্রহ করে অনুচ্ছেদ 2.2 এবং 3.2.2 দেখুন যেখানে সংক্ষিপ্ততর ত্রুটির অংশটি ব্যাখ্যা করা হয়েছে। তারা ত্রুটিটি প্রচার করে না যদি এটি সেল মেমরি থেকে বেরিয়ে যায় (যেমন যদি কোনও বন্ধ / সক্রিয় ইনপুট গেট থাকে) তবে তারা কেবলমাত্র তত্ক্ষণাত্ ত্রুটির ভিত্তিতে গেটের ওজন আপডেট করে update পরে এটি আরও পিছনে প্রচারের সময় শূন্য করা হয়। এটি হ্যাক জাতীয় ধরণের তবে এর কারণটি হ'ল গেটগুলি ধরে ত্রুটিটি প্রবাহিত হওয়া সময়ের সাথে সাথে যেভাবেই ক্ষয় হয়।


7
আপনি কি এই উপর একটু প্রসারিত করতে পারেন? এই মুহুর্তে, লিঙ্কের অবস্থান পরিবর্তন হয় বা কাগজটি অফলাইনে নেওয়া হলে উত্তরের কোনও মূল্য থাকবে না। খুব কমপক্ষে এটি একটি সম্পূর্ণ উদ্ধৃতি (রেফারেন্স) দিতে সহায়তা করবে যা লিঙ্কটি কাজ করা বন্ধ করে দিলে আবার কাগজটি খুঁজে পাওয়ার অনুমতি দেবে, তবে একটি সংক্ষিপ্তসার যা এই উত্তরটিকে স্ব-অন্তর্নিহিত করে তোলে তা সেরা হবে।
সিলভারফিশ

2

আমি স্বীকৃত উত্তরের সাথে কিছু বিশদ যুক্ত করতে চাই, কারণ আমি মনে করি এটি আরও কিছুটা উপদ্রবযুক্ত এবং প্রথমে আরএনএন সম্পর্কে শিখার কোনও ব্যক্তির কাছে এই উপকারটি স্পষ্ট নাও হতে পারে।

টি'টি=Π=1টি'-টিWσ'(Wটি'-)

গুলিটি'গুলিটি=Π=1টি'-টিσ(বনামটি+ +)

  • টি'-টি
  • উত্তর হ্যাঁ , এ কারণেই এলএসটিএম গ্রেডিয়েন্টগুলিও লোপ পাবে, তবে ভ্যানিলা আরএনএন-এর মতো প্রায় নয়

Wσ'()σ()

σ()1
বনামটি+ +=Wএক্সWএক্সW

এক্স=1W=10 বনামটি+ +=10σ()=0,99995

(0,99995)টি'-টি

Wσ'(Wটি'-)1

টি'-=1Wσ'(W*1)0,224W=1,5434

(0,224)টি'-টি

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.