এলএসটিএম ইউনিট সহ আরএনএনগুলি কেন "বিস্ফোরিত গ্রেডিয়েন্টস" থেকে ভুগতে পারে?


13

আরএনএনগুলি (এবং, বিশেষত, এলএসটিএম ইউনিট সহ) কীভাবে কাজ করে সে সম্পর্কে আমার একটি প্রাথমিক জ্ঞান রয়েছে। আমার কাছে একটি এলএসটিএম ইউনিটের আর্কিটেকচারের সচিত্র চিত্র রয়েছে, এটি একটি ঘর এবং কয়েকটি গেট, যা মানগুলির প্রবাহকে নিয়ন্ত্রণ করে।

যাইহোক, আপাতদৃষ্টিতে, আমি সম্পূর্ণরূপে বুঝতে পারি নি যে এলএসটিএম কীভাবে "নিখোঁজ এবং বিস্ফোরিত গ্রেডিয়েন্টস" সমস্যাটি সমাধান করে, যা প্রশিক্ষণের সময় ঘটে, সময়ের মাধ্যমে পিছনে প্রসারণ ব্যবহার করে, একটি প্রচলিত আরএনএন। গণিতটি পুরোপুরি বোঝার জন্য আমার কাছে কাগজপত্র পড়ার সুযোগ হয়নি।

এই উত্তরটি এলএসটিএম ইউনিটগুলির সাথে আরএনএন কীভাবে "অদৃশ্য গ্রেডিয়েন্টস" সমস্যার সমাধান করে তার সংক্ষিপ্ত ব্যাখ্যা দেয়। গাণিতিকভাবে, কারণটি মনে হয় কোনও ডেরিভেটিভের অস্তিত্ব যা অদৃশ্য হয় না, অর্থাত শূন্য হয় না। ফলস্বরূপ, লেখক বলেছেন, "কমপক্ষে একটি পথ রয়েছে যেখানে গ্রেডিয়েন্ট বিলুপ্ত হয় না"। আইএমএইচও, এই ব্যাখ্যাটি কিছুটা অস্পষ্ট।

এদিকে, আমি নিউরাল নেটওয়ার্কস (ইলিয়া সুটস্কিভার, ওরিওল ভিনিয়ালস, কোক ভি। লে) দ্বারা সিকোয়েন্স টু সিকোয়েন্স লার্নিং পেপারটি পড়ছিলাম এবং, সেই কাগজে "৩.৪ প্রশিক্ষণের বিবরণ" বিভাগে বলা হয়েছে

যদিও এলএসটিএমগুলি বিলুপ্ত গ্রেডিয়েন্ট সমস্যায় ভুগছে না, তাদের বিস্ফোরিত গ্রেডিয়েন্ট থাকতে পারে।

আমি সবসময়ই ভেবেছি যে এলএসটিএম ইউনিটগুলির সাথে আরএনএনগুলি "নিখোঁজ" এবং "বিস্ফোরক গ্রেডিয়েন্ট" উভয়ই সমস্যার সমাধান করে তবে স্পষ্টতই, এলএসটিএম ইউনিটগুলির সাথে আরএনএনগুলিও "বিস্ফোরক গ্রেডিয়েন্টস" এর শিকার হয়।

স্বজ্ঞাতভাবে, এটি কেন? গাণিতিকভাবে, এর কারণগুলি কী কী?

উত্তর:


12

খুব সংক্ষিপ্ত উত্তর:

এলএসটিএম সেল স্টেট (সাধারণত দ্বারা চিহ্নিত c) এবং লুকানো স্তর / আউটপুট (সাধারণত এটি দ্বারা চিহ্নিত h) ডিকুপলস করে এবং কেবলমাত্র এতে অ্যাডিটিভ আপডেট করে cযা স্মৃতিগুলিকে cআরও স্থিতিশীল করে তোলে । এইভাবে গ্রেডিয়েন্টের প্রবাহগুলি cরাখা হয় এবং মুছে ফেলা শক্ত (সুতরাং সামগ্রিক গ্রেডিয়েন্টটি বিলুপ্ত করা শক্ত)। তবে অন্যান্য পাথগুলি ধীরে ধীরে বিস্ফোরণ ঘটায় cause


গাণিতিক ব্যাখ্যা সহ আরও বিশদ উত্তর:

প্রথমে সিইসি (কনস্ট্যান্ট ত্রুটি কারাউসেল) প্রক্রিয়াটি পর্যালোচনা করা যাক। সিইসি বলেন সময় পদক্ষেপ থেকে tথেকে t+1, যদি ভুলবেন গেট 1 (সুতরাং সব সময় না থাকলে, কোনো মূল LSTM কাগজে গেট ভুলবেন আছে), গ্রেডিয়েন্ট হয় পরিবর্তন ছাড়াই পড়া যাবে। কাগজ এলএসটিএম-এর বিপিটিটি সূত্র অনুসরণ করে : একটি অনুসন্ধান স্পেস ওডিসি পরিশিষ্ট এ ২ ( কাগজে অন্য সাহিত্যে রয়েছে), সিইসি প্রবাহটি আসলে সমীকরণের সাথে মিলিত হয় । যখন কাছাকাছি থাকে, loss ক্ষতিহীনভাবে জমা হয় ।dl/dctyhδct=+δct+1ft+1ft+1δct+1δct

তবে এলইএসটিএম সিইসির চেয়ে বেশি। path থেকে পর্যন্ত সিইসি পথ ছাড়াও অন্যান্য পথ দুটি সংলগ্ন সময় ধাপের মধ্যে বিদ্যমান। উদাহরণস্বরূপ, জন্য । 2 টি ধাপে পিছনে প্রচার প্রক্রিয়াটি অনুসরণ করে আমাদের কাছে রয়েছে: , আমরা দেখতে পাই যে ভ্যানিলা আরএনএনগুলির মতো এই পথে দু'বার গুণিত হয়েছে, যা গ্রেডিয়েন্ট বিস্ফোরণের কারণ হতে পারে। একইভাবে, ইনপুট এবং ভুলে যাওয়া গেটের মধ্য দিয়ে পাথগুলি ম্যাট্রিকেস স্ব- কারণে গ্রেডিয়েন্ট বিস্ফোরণ ।ctct+1ytot+1yt+1δytRoTδot+1δyt+1RoTδot+2RoTRiT,RfT,RzT

রেফারেন্স:

কে। গ্রাফ, আর কে শ্রীবাস্তব, জে। কৌত্নাক, বিআর স্টিউইনব্রিংক এবং জে.স্কমিডুবার। এলএসটিএম: একটি অনুসন্ধান স্পেস ওডিসি। CoRR, অ্যাবস / 1503.04069, 2015।


আপনি কি এই কাগজটির জন্য একটি সম্পূর্ণ উদ্ধৃতি অন্তর্ভুক্ত করতে পারেন? লিঙ্কগুলি মারা যেতে ঝোঁক।
এমকেটি -

2
@mkt আপনার পরামর্শের জন্য ধন্যবাদ। আসলে এটি একটি খুব বিখ্যাত কাগজ এবং লিঙ্কটি আরএক্সআইভিতে চলে গেছে, সুতরাং এটি মারা যাওয়ার সম্ভাবনা নেই, হ'ল ol তবে সংস্করণ ভি 1 পরীক্ষা করে দেখুন (কারণ বর্তমান সংস্করণ ভি 2 একটি পরিশিষ্ট অন্তর্ভুক্ত করে না) doesn't
সল্ট করুন

যাইহোক এটি যুক্ত করার জন্য, এবং পরিশিষ্ট সম্পর্কে বিস্তারিত ধন্যবাদ।
এমকেটি -

দুর্দান্ত উত্তর, আমি সাধারণত +1 দেওয়ার জন্য মন্তব্য করি না, তবে এটি এটি প্রাপ্য। কোনও এলএসটিএম কোষে সম্ভবত অস্থির পাথের ম্যাট্রিক্স বীজগণিতের সাথে একটি প্রকৃত উদাহরণ দেখানো ঠিক ওপিকে উত্তর দেয়।
ডেল্টাভ

3

এলএসটিএম / জিআরইউর আগে আরএনএনগুলি অস্থির হয়ে উঠত কারণ তারা যা করছিল তা হ'ল প্রতিটি টাইমস্টেপের জন্য কিছু ওজন সহ গোপনীয় অবস্থার গুণন করা, যার অর্থ এটি ক্ষতিকারক অপারেশন। এবং যেমনটি আমরা জানি, খুব অস্থির: এলএসটিএম / জিআরইউ কোষগুলি গুণকে আরও বর্ধিত করে এই সমস্যার সমাধান করে। আপনার একটি সেল স্টেট রয়েছে এবং গুণনের পরিবর্তে আপনি এটি যোগ করুন বা বিয়োগ করুন।

0.992000.134
1200=1
1.0120013

তবে এখনও কিছু পথ রয়েছে যার মাধ্যমে গ্রেডিয়েন্টটি অস্থির হয়ে উঠতে পারে এবং নেটটি যত বড় হবে ততই সম্ভবত আপনি এই সমস্যার মধ্যে চলে যাবেন।


3
কেন এটি আমার প্রশ্নের উত্তর দেবে? আমি বিশদ জানতে চাই।
nbro
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.