ডিএনসির আর্কিটেকচার পরীক্ষা করে প্রকৃতপক্ষে এলএসটিএম-এর অনেক মিল রয়েছে । ডিপমাইন্ড নিবন্ধে চিত্রটি বিবেচনা করুন যা আপনি লিঙ্ক করেছেন:
এটি LSTM আর্কিটেকচারের সাথে তুলনা করুন (স্লাইডশেয়ারে অনন্তের কৃতিত্ব):
এখানে কিছু ঘনিষ্ঠ অ্যানালগ রয়েছে:
- অনেকটা এলএসটিএমের মতো, ডিএনসি ইনপুট থেকে স্থির আকারের রাজ্য ভেক্টরগুলিতে ( এলএসটিএম-এ h এবং সি ) কিছু রূপান্তর করবে
- তেমনি, ডিএনসি এই স্থির আকারের রাষ্ট্র ভেক্টরদের থেকে কিছুটা রূপান্তর সম্পাদন করবে সম্ভাব্য নির্বিচারে-দৈর্ঘ্য আউটপুট ( এলএসটিএম- তে আমরা বারবার আমাদের মডেল থেকে নমুনা না দেওয়া পর্যন্ত / মডেলটি ইঙ্গিত করে আমাদের সম্পন্ন না হওয়া পর্যন্ত)
- ভুলবেন এবং ইনপুট LSTM দরজা দিয়ে প্রতিনিধিত্ব লেখার DNC মধ্যে অপারেশন ( 'বিস্মরণ' মূলত শুধু zeroing হয় বা আংশিকভাবে মেমরির zeroing)
- আউটপুট LSTM গেট প্রতিনিধিত্ব করে পঠিত DNC মধ্যে অপারেশন
তবে ডিএনসি অবশ্যই এলএসটিএমের চেয়ে বেশি more স্পষ্টতই, এটি একটি বৃহত্তর রাষ্ট্রকে ব্যবহার করে যা অংশগুলিতে বিচ্ছিন্ন (সম্বোধনযোগ্য) হয়; এটি এটি এলএসটিএমের ভুলে যাওয়া গেটকে আরও বাইনারি করার অনুমতি দেয়। এর অর্থ এই যে আমি প্রতিবার পদক্ষেপে রাজ্য অগত্যা কিছু ভগ্নাংশ দ্বারা ক্ষয় হয় না, যেখানে এলএসটিএম (সিগময়েড অ্যাক্টিভেশন ফাংশন সহ) এটি অগত্যা হয়। এটি আপনার উল্লেখ করা বিপর্যয়ের সমস্যাটিকে হ্রাস করতে পারে এবং এর ফলে আরও ভালভাবে স্কেল করা যেতে পারে।
ডিএনসি এটি মেমরির মধ্যে যে লিঙ্কগুলি ব্যবহার করে সেগুলিও উপন্যাস। তবে, এলএসটিএমের চেয়ে এটি আরও প্রান্তিক উন্নতি হতে পারে বলে মনে হয় যদি আমরা অ্যাক্টিভেশন ফাংশন সহ কেবলমাত্র একটি একক স্তরের পরিবর্তে প্রতিটি গেটের জন্য সম্পূর্ণ নিউরাল নেটওয়ার্কগুলির সাথে এলএসটিএমটিকে পুনরায় কল্পনা করি (এটিকে একটি সুপার-এলএসটিএম বলুন); এই ক্ষেত্রে, আমরা যথেষ্ট পরিমাণে শক্তিশালী নেটওয়ার্কের সাথে মেমরির দুটি স্লটের মধ্যে যে কোনও সম্পর্ক জানতে পারি। যদিও আমি ডিপমাইন্ড পরামর্শ দিচ্ছে যে লিঙ্কগুলির নির্দিষ্টতাগুলি আমি জানি না, তারা নিবন্ধে বোঝায় যে তারা নিয়মিত নিউরাল নেটওয়ার্কের মতো গ্রেডিয়েন্টগুলি ব্যাকপ্রোপেট করে কেবল সবকিছু শিখছে। সুতরাং তাদের লিঙ্কগুলিতে তারা যে সম্পর্কটি এনকোড করছে তা তাত্ত্বিকভাবে একটি নিউরাল নেটওয়ার্ক দ্বারা শেখা উচিত, এবং সুতরাং যথেষ্ট শক্তিশালী 'সুপার-এলএসটিএম' এটি ক্যাপচার করতে সক্ষম হওয়া উচিত।
যা বলা হচ্ছে তার সাথে , প্রায়শই গভীর শিক্ষার ক্ষেত্রে এটি ঘটে যে এক্সপ্রেশননেস জন্য একই তাত্ত্বিক ক্ষমতা সম্পন্ন দুটি মডেল অনুশীলনে ব্যাপকভাবে ভিন্ন সম্পাদন করে। উদাহরণস্বরূপ, বিবেচনা করুন যে একটি পুনরাবৃত্তি নেটওয়ার্ক একটি বিশাল ফিড-ফরোয়ার্ড নেটওয়ার্ক হিসাবে উপস্থাপন করা যেতে পারে যদি আমরা কেবল এটি আনরোল করি না। একইভাবে, কনভ্যুশনাল নেটওয়ার্কটি ভ্যানিলা নিউরাল নেটওয়ার্কের চেয়ে ভাল নয় কারণ এর প্রকাশের জন্য কিছু অতিরিক্ত ক্ষমতা রয়েছে; প্রকৃতপক্ষে, এটি এর ওজনে আরোপিত প্রতিবন্ধকতাগুলি এটি আরও কার্যকর করে তোলে । সুতরাং দুটি মডেলের ভাবের তুলনা করাই অ্যাক্সেসে তাদের পারফরম্যান্সের সুষ্ঠু তুলনা নয় বা তারা কতটা ভালভাবে স্কেল করবে তার সঠিক প্রক্ষেপণ নয়।
ডিএনসি সম্পর্কে আমার একটি প্রশ্ন হ'ল স্মৃতিশক্তি শেষ হয়ে গেলে কী ঘটে। যখন একটি ক্লাসিকাল কম্পিউটার মেমরির বাইরে চলে যায় এবং মেমরির অন্য একটি ব্লকের জন্য অনুরোধ করা হয়, প্রোগ্রামগুলি ক্রাশ শুরু হয় (সেরা)। ডিপমাইন্ড কীভাবে এটি মোকাবেলার পরিকল্পনা করে তা দেখার জন্য আমি আগ্রহী আমি ধরে নিয়েছি এটি বর্তমানে ব্যবহৃত মেমরির কিছু বুদ্ধিমান নৃশংসকরণের উপর নির্ভর করবে। কোনও অর্থে কম্পিউটার বর্তমানে এটি করে যখন কোনও ওএস অনুরোধ করে যে অ্যাপ্লিকেশনগুলি অ-সমালোচনামূলক মেমরি মুক্ত করে যদি মেমরির চাপটি একটি নির্দিষ্ট প্রান্তে পৌঁছায়।