পুনরাবৃত্ত নিউরাল নেটওয়ার্ক (আরএনএন) এর পিছনে ধারণাটি আমার কাছে স্পষ্ট। আমি এটি নিম্নলিখিত উপায়ে বুঝতে পারি:
আমাদের পর্যবেক্ষণগুলির ক্রম রয়েছে ( ) (বা, অন্য কথায়, বহুবিধ সময় সিরিজ)। প্রতিটি একক পর্যবেক্ষণ- হ'ল একটি ডাইমেনশনাল সংখ্যাসূচক ভেক্টর। আরএনএন-মডেলের মধ্যে আমরা ধরে যে পরবর্তী পর্যবেক্ষণ previous পূর্ববর্তী পর্যবেক্ষণের একটি ফাংশন পাশাপাশি পূর্ববর্তী " অবস্থা" , যেখানে লুকানো রাজ্যগুলিও সংখ্যাসূচক দ্বারা প্রতিনিধিত্ব করা হয় ভেক্টর (পর্যবেক্ষক এবং লুকানো রাজ্যের মাত্রা আলাদা হতে পারে)। লুকানো রাষ্ট্রগুলি নিজেরাই পূর্ববর্তী পর্যবেক্ষণ এবং লুকানো অবস্থার উপর নির্ভর করে বলে মনে করা হয়:
অবশেষে, আরএনএন মডেলটিতে, ফাংশনটি নিউরাল নেটওয়ার্ক হিসাবে ধরে নেওয়া হয়। আমরা উপলভ্য ডেটা (পর্যবেক্ষণের ক্রম) ব্যবহার করে নিউরাল নেটওয়ার্কটি প্রশিক্ষণ (ফিট) করি। প্রশিক্ষণের ক্ষেত্রে আমাদের লক্ষ্যটি পূর্ববর্তী পর্যবেক্ষণগুলি ব্যবহার করে পরবর্তী পর্যবেক্ষণ যথাসম্ভব নির্ভুলভাবে পূর্বাভাস দিতে সক্ষম হওয়া।
এখন, এলএসটিএম নেটওয়ার্কটি আরএনএন নেটওয়ার্কের একটি পরিবর্তন। যতদূর আমি বুঝতে পেরেছি, এলএনএসটিএমের পিছনে অনুপ্রেরণা হ'ল সংক্ষিপ্ত স্মৃতিশক্তির সমস্যাটি আরএনএন-এর অদ্ভুতরূপে সমাধান করা (প্রচলিত আরএনএন সময়ের সাথে অনেক বেশি পৃথক হওয়া সম্পর্কিত ঘটনাগুলির সাথে ঝামেলা রয়েছে)।
আমি বুঝতে পারি কীভাবে এলএসটিএম নেটওয়ার্ক কাজ করে। আমি খুঁজে পেয়েছি এলএসটিএম এর সেরা ব্যাখ্যা এখানে । নিম্নরূপ মৌলিক ধারণা:
লুকানো রাষ্ট্র ভেক্টর ছাড়াও আমরা একটি তথাকথিত "সেল স্টেট" ভেক্টর প্রবর্তন করি যার গোপন রাষ্ট্র ভেক্টর ( ) এর সমান আকার ( ) থাকে। আমি মনে করি যে "সেল স্টেট" ভেক্টর দীর্ঘমেয়াদী মেমরির মডেল হিসাবে পরিচিত হয়েছিল। প্রচলিত আরএনএন-এর ক্ষেত্রে, এলএসটিএম নেটওয়ার্কটি পর্যবেক্ষণ এবং লুকানো অবস্থায় ইনপুট হিসাবে পায়। এই ইনপুটটি ব্যবহার করে, আমরা নিম্নলিখিত উপায়ে একটি নতুন "সেল স্টেট" গণনা করি:
যেখানে কার্যাবলী , এবং স্নায়ুর নেটওয়ার্ক দ্বারা অনুকরণে করা হয়। অভিব্যক্তিটিকে আরও সহজ করার জন্য আমি কেবল যুক্তিগুলি সরিয়েছি:
সুতরাং, আমরা দেখতে পাচ্ছি যে নতুন "সেল স্টেট ভেক্টর" ( ) হ'ল পুরানো স্টেট ভেক্টর ( an) এবং একটি "ইন্টারমিডিয়েট" সেল স্টেট ভেক্টর ( )। ভেক্টরগুলির মধ্যে গুণকটি উপাদান অনুসারে হয় (আমরা দুটি এন ডাইমেনশনাল ভেক্টরকে গুণ করি এবং ফলস্বরূপ, অন্য একটি এন ডাইমেনশনাল ভেক্টর পাই)। অন্য কথায়, আমরা উপাদান নির্দিষ্ট ওজন ব্যবহার করে দুটি সেল স্টেট ভেক্টর (পুরানো এবং মধ্যবর্তী একটি) মিশ্রিত করি।
বর্ণিত ক্রিয়াকলাপগুলির মধ্যে অন্তর্দৃষ্টি এখানে রয়েছে। সেল স্টেট ভেক্টরকে মেমরি ভেক্টর হিসাবে ব্যাখ্যা করা যায়। দ্বিতীয় ওজন ভেক্টর (নিউরাল নেটওয়ার্ক দ্বারা গণনা করা) একটি " " (বা ভুলে যাওয়া) গেট। এর সেলগুলি স্থিতি ভেক্টর (বা দীর্ঘমেয়াদী মেমরি ভেক্টর) এর সাথে সম্পর্কিত মান রাখি বা ভুলে যাব কিনা তা এর মানগুলি স্থির করে। প্রথম ওয়েট ভেক্টর ( ), যা অন্য নিউরাল নেটওয়ার্ক দ্বারা গণনা করা হয়, তাকে "লিখন" বা "মুখস্থ" গেট বলা হয়। এটি সিদ্ধান্ত নিয়েছে যে কোনও নতুন মেমোরি ("ইন্টারমিডিয়েট" সেল স্টেট ভেক্টর) সংরক্ষণ করতে হবে কিনা (বা আরও স্পষ্টভাবে, যদি এর কোনও নির্দিষ্ট উপাদান সংরক্ষণ করতে / লিখতে হয়)। "মধ্যবর্তী" → ω 1 → ω 2ভেক্টর)। প্রকৃতপক্ষে, এটি বলা আরও সঠিক হবে যে দুটি ওজন ভেক্টর ( এবং ) এর সাথে আমরা পুরানো এবং নতুন স্মৃতিটিকে "মিশ্রিত" করি।
সুতরাং, উপরে বর্ণিত মিক্সিংয়ের পরে (বা ভুলে যাওয়া এবং মুখস্ত করা) আমাদের একটি নতুন সেল স্টেট ভেক্টর রয়েছে। তারপরে আমরা অন্য নিউরাল নেটওয়ার্ক ব্যবহার করে একটি "মধ্যবর্তী" লুক্কায়িত অবস্থা গণনা করি (আগের মতো আমরা পর্যবেক্ষিত রাষ্ট্র এবং লুকানো অবস্থা ইনপুট হিসাবে ব্যবহার করি)। পরিশেষে, আমরা নতুন (বা "চূড়ান্ত") অবস্থা পেতে "মধ্যবর্তী" লুকানো অবস্থার ( ) সাথে নতুন সেল স্টেট (মেমরি) একত্রিত করি যা আমরা আসলে আউটপুট করি:
যেখানে হ'ল সিগময়েড ফাংশন যা সেল স্টেট ভেক্টরের প্রতিটি উপাদানকে প্রয়োগ করা হয়।
সুতরাং, আমার প্রশ্নটি হল: কেন (বা ঠিক কীভাবে) এই স্থাপত্যটি সমস্যার সমাধান করে?
বিশেষত আমি নিম্নলিখিতগুলি বুঝতে পারি না:
- আমরা "ইন্টারমিডিয়েট" মেমরি (সেল স্টেট ভেক্টর) তৈরি করতে একটি নিউরাল নেটওয়ার্ক ব্যবহার করি যা একটি "নতুন" মেমরি (সেল স্টেট) পেতে "পুরানো" মেমরির (বা সেল স্টেট) মিশ্রিত হয়। মিশ্রণের জন্য ওজনের কারণগুলিও নিউরাল নেটওয়ার্কগুলি দ্বারা গণনা করা হয়। তবে কেন আমরা "নতুন" সেল স্টেট (বা মেমরি) গণনা করতে কেবল একটি নিউরাল নেটওয়ার্ক ব্যবহার করতে পারি না? অথবা, অন্য কথায়, আমরা কেন পর্যবেক্ষণের অবস্থা, লুকানো অবস্থা এবং পুরানো স্মৃতিটিকে নিউরাল নেটওয়ার্কের ইনপুট হিসাবে "নতুন" স্মৃতি গণনা করতে পারি না?
- শেষ পর্যন্ত আমরা একটি নতুন লুকানো অবস্থার গণনা করার জন্য পর্যবেক্ষিত এবং লুকানো অবস্থাগুলি ব্যবহার করি এবং তারপরে আমরা নতুন গণনা করা লুকানো অবস্থার উপাদানটি সংশোধন করার জন্য "নতুন" সেল স্টেট (বা (দীর্ঘমেয়াদি) মেমরি) ব্যবহার করি। অন্য কথায়, সেল স্টেটের উপাদানগুলি ওজন হিসাবে ঠিক ব্যবহৃত হয় যা গণনা করা গোপন অবস্থার সাথে সম্পর্কিত উপাদানগুলি হ্রাস করে। তবে কেন সেল স্টেট ভেক্টরটি এই বিশেষ উপায়ে ব্যবহার করা হয়? নিউরাল নেটওয়ার্কের ইনপুটটিতে সেল স্টেট ভেক্টর (দীর্ঘমেয়াদী মেমরি) রেখে আমরা কেন নতুন লুকানো অবস্থার গণনা করতে পারি না (এটি পর্যবেক্ষণকৃত ও লুকানো অবস্থাকেও ইনপুট হিসাবে গ্রহণ করে)?
যোগ করা হয়েছে:
এখানে একটি ভিডিও রয়েছে যা বিভিন্ন গেটগুলি ("রাখুন", "লিখুন" এবং "পড়ুন") কীভাবে সংগঠিত হয় তা পরিষ্কার করতে সহায়তা করতে পারে ।