আমি চ ২০১৪ কাগজের মাধ্যমে কাজ করছি যা সেক 2 সেক মডেলিংয়ের জন্য এনকোডার-ডিকোডার আর্কিটেকচার চালু করেছিল।
কাগজ, তারা (অথবা এটা নেতিবাচক-লগ-সম্ভাবনা) এর জন্য ইনপুট হ্রাস ফাংশন হিসাবে আউটপুট প্রদত্ত ইনপুট সম্ভাবনা ব্যবহার বলে মনে হচ্ছে দৈর্ঘ্যের এম এবং আউটপুট দৈর্ঘ্যের :এন
যাইহোক, আমি মনে করি এটি ক্ষতির ফাংশন হিসাবে ব্যবহার করে আমি বেশ কয়েকটি সমস্যা দেখছি:
- মনে হচ্ছে প্রশিক্ষণের সময় শিক্ষককে বাধ্য করা হয়েছে (অর্থাত্, পরবর্তী পুনরাবৃত্তির ইনপুট হিসাবে কোনও পদের জন্য ডিকোডারের অনুমানের পরিবর্তে, এটি পরিচিত টোকেনটি ব্যবহার করে।
- এটি দীর্ঘ ক্রমগুলি দন্ডিত করবে না। সম্ভাব্যতা আউটপুট থেকে থেকে পর্যন্ত, যদি ডিকোডারটি প্রথম পরে সবকিছুতে দীর্ঘতর ক্রম তৈরি করে তবে ক্ষতির কারণ হয় না।
- যদি মডেলটি প্রারম্ভিক শেষের-স্ট্রিং টোকেনটির পূর্বাভাস দেয় তবে ক্ষতির ফাংশনটি এখনও পদক্ষেপের জন্য দাবি করে - যার অর্থ আমরা মডেলগুলির একটি প্রশিক্ষণহীন "বহুগুণ" এর উপর ভিত্তি করে আউটপুট তৈরি করি। এটাকে ম্লান মনে হচ্ছে।
এই উদ্বেগগুলির কি কোনওটি বৈধ? যদি তা হয়, তবে আরও উন্নত ক্ষতির কার্যক্রমে কোনও অগ্রগতি হয়েছে?