Seq2seq আরএনএন মডেলটি স্কোর করতে আমার কোন ক্ষতির ফাংশন ব্যবহার করা উচিত?

আমি চ ২০১৪ কাগজের মাধ্যমে কাজ করছি যা সেক 2 সেক মডেলিংয়ের জন্য এনকোডার-ডিকোডার আর্কিটেকচার চালু করেছিল।

কাগজ, তারা (অথবা এটা নেতিবাচক-লগ-সম্ভাবনা) এর জন্য ইনপুট হ্রাস ফাংশন হিসাবে আউটপুট প্রদত্ত ইনপুট সম্ভাবনা ব্যবহার বলে মনে হচ্ছে দৈর্ঘ্যের এবং আউটপুট দৈর্ঘ্যের : $x$ $M$ $y$ $N$

$P(y_1, …, y_N | x_1, …, x_M) = P(y_1 | x_1, …, x_m) P(y_2 | y_1, x_1, …, x_m) \dots P(y_N | y_1, …, y_N-1, x_1, …, x_m)$

যাইহোক, আমি মনে করি এটি ক্ষতির ফাংশন হিসাবে ব্যবহার করে আমি বেশ কয়েকটি সমস্যা দেখছি:

মনে হচ্ছে প্রশিক্ষণের সময় শিক্ষককে বাধ্য করা হয়েছে (অর্থাত্, পরবর্তী পুনরাবৃত্তির ইনপুট হিসাবে কোনও পদের জন্য ডিকোডারের অনুমানের পরিবর্তে, এটি পরিচিত টোকেনটি ব্যবহার করে।
এটি দীর্ঘ ক্রমগুলি দন্ডিত করবে না। সম্ভাব্যতা আউটপুট থেকে থেকে পর্যন্ত, যদি ডিকোডারটি প্রথম পরে সবকিছুতে দীর্ঘতর ক্রম তৈরি করে তবে ক্ষতির কারণ হয় না। $1$ $N$ $N$
যদি মডেলটি প্রারম্ভিক শেষের-স্ট্রিং টোকেনটির পূর্বাভাস দেয় তবে ক্ষতির ফাংশনটি এখনও পদক্ষেপের জন্য দাবি করে - যার অর্থ আমরা মডেলগুলির একটি প্রশিক্ষণহীন "বহুগুণ" এর উপর ভিত্তি করে আউটপুট তৈরি করি। এটাকে ম্লান মনে হচ্ছে। $N$

এই উদ্বেগগুলির কি কোনওটি বৈধ? যদি তা হয়, তবে আরও উন্নত ক্ষতির কার্যক্রমে কোনও অগ্রগতি হয়েছে?

deep-learning loss-functions rnn

— user3243135
সূত্র

মনে হচ্ছে প্রশিক্ষণের সময় শিক্ষককে বাধ্য করা হয়েছে (অর্থাত্, পরবর্তী পুনরাবৃত্তির ইনপুট হিসাবে কোনও পদের জন্য ডিকোডারের অনুমানের পরিবর্তে, এটি পরিচিত টোকেনটি ব্যবহার করে।

$\log P(y_1, \ldots, y_N)$ $P(y) = \prod_i P(y_i | y_{<i})$ যেমনটি সাধারণত করা হয়, যেখানে প্রতিটি শর্তসাপেক্ষ শব্দটি আরএনএন দিয়ে তৈরি করা হয়, তারপরে "শিক্ষক জোর করা" হ'ল একটি আসল পদ্ধতি যা সঠিকভাবে লগের সম্ভাবনা সর্বাধিক করে তোলে। (আমি কন্ডিশনার ক্রম লিখতে বাদ দিই $x$

এমএলই এর সর্বব্যাপীতা এবং ভাল বিকল্পের অভাবের কারণে, "শিক্ষক জোর করে" ধরে নেওয়া আপত্তিজনক বলে আমি মনে করি না।

তবুও এটির সাথে স্বীকারোক্তিযুক্ত সমস্যা রয়েছে - যথা, মডেল সমস্ত ডেটা পয়েন্টগুলিতে উচ্চ সম্ভাবনা বরাদ্দ করে, তবে মডেল থেকে প্রাপ্ত নমুনাগুলি সম্ভবত সত্য ডেটা বিতরণে সম্ভব হয় না (যার ফলে "নিম্ন মানের" নমুনাগুলি আসে)। আপনি "প্রফেসর ফোর্সিং" (ল্যাম্ব এট আল।) এর প্রতি আগ্রহী হতে পারেন যা এমএলই ছাড়াই কোনও প্রতিকূল প্রশিক্ষণ পদ্ধতির মাধ্যমে এটিকে প্রশমিত করে।

এটি দীর্ঘ ক্রমগুলি দন্ডিত করবে না। সম্ভাব্যতা আউটপুট থেকে 1 থেকে এন পর্যন্ত, যদি ডিকোডারটি প্রথম এন এর পরে সবকিছুতে দীর্ঘতর ক্রম তৈরি করে তবে ক্ষতির কারণ হয় না।

এবং

যদি মডেলটি প্রারম্ভিক-শেষের-স্ট্রিং টোকেনটির পূর্বাভাস দেয় তবে ক্ষতির ফাংশনটি এখনও এন পদক্ষেপের দাবি করে - যার অর্থ আমরা মডেলগুলির একটি প্রশিক্ষণহীন "বহুগুণ" এর উপর ভিত্তি করে আউটপুট তৈরি করি। এটাকে ম্লান মনে হচ্ছে।

প্রশিক্ষণের সময় ঘটে যাওয়া সমস্যাগুলির মধ্যে কোনওটিই নয়। পূর্বাভাসের আউটপুট দেওয়ার পদ্ধতি হিসাবে অটোরিগ্রেসিভ সিকোয়েন্স মডেলটি ভাবার পরিবর্তে প্রদত্ত অনুক্রমটি কতটা সম্ভাব্য তা গণনার উপায় হিসাবে ভাবেন।মডেলটি কখনও কোনও কিছুর পূর্বাভাস দেয় না - আপনি কোনও বিতরণ থেকে ক্রম বা একটি টোকেন নমুনা করতে পারেন, বা পরবর্তী টোকেনটি সবচেয়ে সম্ভবত কী তা আপনি এটি জিজ্ঞাসা করতে পারেন - তবে এগুলি ভবিষ্যদ্বাণী থেকে অত্যন্ত গুরুত্বপূর্ণ (এবং প্রশিক্ষণের সময় আপনি নমুনা দেন না) পারেন)।

যদি তা হয়, তবে আরও উন্নত ক্ষতির কার্যক্রমে কোনও অগ্রগতি হয়েছে?

বিভিন্ন মডেলিংয়ের কাজের জন্য কেস-বাই-কেস ভিত্তিতে বিশেষত ডিজাইন করা উদ্দেশ্যগুলি থাকতে পারে। তবে আমি বলব এমএলই এখনও প্রভাবশালী - সাম্প্রতিক জিপিটি 2 মডেল যা প্রাকৃতিক ভাষার মডেলিং এবং বোঝার কাজগুলির একটি বিস্তৃত বর্ণনায় অত্যাধুনিক পারফরম্যান্স অর্জন করেছে এটির সাথে প্রশিক্ষিত হয়েছিল।

— shimao
সূত্র