Seq2seq আরএনএন মডেলটি স্কোর করতে আমার কোন ক্ষতির ফাংশন ব্যবহার করা উচিত?


10

আমি চ ২০১৪ কাগজের মাধ্যমে কাজ করছি যা সেক 2 সেক মডেলিংয়ের জন্য এনকোডার-ডিকোডার আর্কিটেকচার চালু করেছিল।

কাগজ, তারা (অথবা এটা নেতিবাচক-লগ-সম্ভাবনা) এর জন্য ইনপুট হ্রাস ফাংশন হিসাবে আউটপুট প্রদত্ত ইনপুট সম্ভাবনা ব্যবহার বলে মনে হচ্ছে দৈর্ঘ্যের এম এবং আউটপুট দৈর্ঘ্যের :এক্সএমএনYএন

পি(Y1,...,Yএন|এক্স1,...,এক্সএম)=পি(Y1|এক্স1,...,এক্সমি)পি(Y2|Y1,এক্স1,...,এক্সমি)...পি(Yএন|Y1,...,Yএন-1,এক্স1,...,এক্সমি)

যাইহোক, আমি মনে করি এটি ক্ষতির ফাংশন হিসাবে ব্যবহার করে আমি বেশ কয়েকটি সমস্যা দেখছি:

  1. মনে হচ্ছে প্রশিক্ষণের সময় শিক্ষককে বাধ্য করা হয়েছে (অর্থাত্, পরবর্তী পুনরাবৃত্তির ইনপুট হিসাবে কোনও পদের জন্য ডিকোডারের অনুমানের পরিবর্তে, এটি পরিচিত টোকেনটি ব্যবহার করে।
  2. এটি দীর্ঘ ক্রমগুলি দন্ডিত করবে না। সম্ভাব্যতা আউটপুট থেকে থেকে পর্যন্ত, যদি ডিকোডারটি প্রথম পরে সবকিছুতে দীর্ঘতর ক্রম তৈরি করে তবে ক্ষতির কারণ হয় না।1এনএন
  3. যদি মডেলটি প্রারম্ভিক শেষের-স্ট্রিং টোকেনটির পূর্বাভাস দেয় তবে ক্ষতির ফাংশনটি এখনও পদক্ষেপের জন্য দাবি করে - যার অর্থ আমরা মডেলগুলির একটি প্রশিক্ষণহীন "বহুগুণ" এর উপর ভিত্তি করে আউটপুট তৈরি করি। এটাকে ম্লান মনে হচ্ছে।এন

এই উদ্বেগগুলির কি কোনওটি বৈধ? যদি তা হয়, তবে আরও উন্নত ক্ষতির কার্যক্রমে কোনও অগ্রগতি হয়েছে?

উত্তর:


1

মনে হচ্ছে প্রশিক্ষণের সময় শিক্ষককে বাধ্য করা হয়েছে (অর্থাত্, পরবর্তী পুনরাবৃত্তির ইনপুট হিসাবে কোনও পদের জন্য ডিকোডারের অনুমানের পরিবর্তে, এটি পরিচিত টোকেনটি ব্যবহার করে।

লগপি(Y1,...,Yএন)পি(Y)=Πআমিপি(Yআমি|Y<আমি)যেমনটি সাধারণত করা হয়, যেখানে প্রতিটি শর্তসাপেক্ষ শব্দটি আরএনএন দিয়ে তৈরি করা হয়, তারপরে "শিক্ষক জোর করা" হ'ল একটি আসল পদ্ধতি যা সঠিকভাবে লগের সম্ভাবনা সর্বাধিক করে তোলে। (আমি কন্ডিশনার ক্রম লিখতে বাদ দিইএক্স

এমএলই এর সর্বব্যাপীতা এবং ভাল বিকল্পের অভাবের কারণে, "শিক্ষক জোর করে" ধরে নেওয়া আপত্তিজনক বলে আমি মনে করি না।

তবুও এটির সাথে স্বীকারোক্তিযুক্ত সমস্যা রয়েছে - যথা, মডেল সমস্ত ডেটা পয়েন্টগুলিতে উচ্চ সম্ভাবনা বরাদ্দ করে, তবে মডেল থেকে প্রাপ্ত নমুনাগুলি সম্ভবত সত্য ডেটা বিতরণে সম্ভব হয় না (যার ফলে "নিম্ন মানের" নমুনাগুলি আসে)। আপনি "প্রফেসর ফোর্সিং" (ল্যাম্ব এট আল।) এর প্রতি আগ্রহী হতে পারেন যা এমএলই ছাড়াই কোনও প্রতিকূল প্রশিক্ষণ পদ্ধতির মাধ্যমে এটিকে প্রশমিত করে।

এটি দীর্ঘ ক্রমগুলি দন্ডিত করবে না। সম্ভাব্যতা আউটপুট থেকে 1 থেকে এন পর্যন্ত, যদি ডিকোডারটি প্রথম এন এর পরে সবকিছুতে দীর্ঘতর ক্রম তৈরি করে তবে ক্ষতির কারণ হয় না।

এবং

যদি মডেলটি প্রারম্ভিক-শেষের-স্ট্রিং টোকেনটির পূর্বাভাস দেয় তবে ক্ষতির ফাংশনটি এখনও এন পদক্ষেপের দাবি করে - যার অর্থ আমরা মডেলগুলির একটি প্রশিক্ষণহীন "বহুগুণ" এর উপর ভিত্তি করে আউটপুট তৈরি করি। এটাকে ম্লান মনে হচ্ছে।

প্রশিক্ষণের সময় ঘটে যাওয়া সমস্যাগুলির মধ্যে কোনওটিই নয়। পূর্বাভাসের আউটপুট দেওয়ার পদ্ধতি হিসাবে অটোরিগ্রেসিভ সিকোয়েন্স মডেলটি ভাবার পরিবর্তে প্রদত্ত অনুক্রমটি কতটা সম্ভাব্য তা গণনার উপায় হিসাবে ভাবেন।মডেলটি কখনও কোনও কিছুর পূর্বাভাস দেয় না - আপনি কোনও বিতরণ থেকে ক্রম বা একটি টোকেন নমুনা করতে পারেন, বা পরবর্তী টোকেনটি সবচেয়ে সম্ভবত কী তা আপনি এটি জিজ্ঞাসা করতে পারেন - তবে এগুলি ভবিষ্যদ্বাণী থেকে অত্যন্ত গুরুত্বপূর্ণ (এবং প্রশিক্ষণের সময় আপনি নমুনা দেন না) পারেন)।

যদি তা হয়, তবে আরও উন্নত ক্ষতির কার্যক্রমে কোনও অগ্রগতি হয়েছে?

বিভিন্ন মডেলিংয়ের কাজের জন্য কেস-বাই-কেস ভিত্তিতে বিশেষত ডিজাইন করা উদ্দেশ্যগুলি থাকতে পারে। তবে আমি বলব এমএলই এখনও প্রভাবশালী - সাম্প্রতিক জিপিটি 2 মডেল যা প্রাকৃতিক ভাষার মডেলিং এবং বোঝার কাজগুলির একটি বিস্তৃত বর্ণনায় অত্যাধুনিক পারফরম্যান্স অর্জন করেছে এটির সাথে প্রশিক্ষিত হয়েছিল।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.