উদাহরণস্বরূপ, এই কাগজের শিরোনামটি পড়ে: "নমুনা দক্ষ অভিনেতা-সমালোচক অভিজ্ঞতার পুনরায় খেলুন"।
নমুনা দক্ষতা কী এবং কীভাবে তা সার্থক করার জন্য গুরুত্বপূর্ণ নমুনা ব্যবহার করা যেতে পারে?
উদাহরণস্বরূপ, এই কাগজের শিরোনামটি পড়ে: "নমুনা দক্ষ অভিনেতা-সমালোচক অভিজ্ঞতার পুনরায় খেলুন"।
নমুনা দক্ষতা কী এবং কীভাবে তা সার্থক করার জন্য গুরুত্বপূর্ণ নমুনা ব্যবহার করা যেতে পারে?
উত্তর:
একটি অ্যালগোরিদম হ'ল নমুনা দক্ষ যদি এটি প্রতিটি নমুনার মধ্যে সবচেয়ে বেশি লাভ করতে পারে। কীভাবে প্রথমবার পং খেলতে হবে তা শিখার চেষ্টা করে শিখুন। একজন মানুষ হিসাবে, খুব কম নমুনার ভিত্তিতে গেমটি খেলতে শিখতে আপনাকে কয়েক সেকেন্ডের মধ্যে নিতে হবে। এটি আপনাকে খুব "নমুনা দক্ষ" করে তোলে। আধুনিক আরএল অ্যালগরিদমগুলিকে আপনার তুলনায় হাজার গুণ বেশি ডেটা দেখতে হবে তাই তারা তুলনামূলকভাবে, নমুনা অক্ষম।
অফ-পলিসি লার্নিংয়ের ক্ষেত্রে, সমস্ত নমুনাগুলি কার্যকর হয় না যেগুলি যেগুলিতে আমরা আগ্রহী সেই বিতরণের অংশ নয়। গুরুত্বের নমুনাএই নমুনাগুলি ফিল্টার করার একটি কৌশল। এর মূল ব্যবহারটি ছিল কেবলমাত্র একটি ভিন্ন তবে সম্পর্কিত বিতরণ থেকে নমুনা নিতে সক্ষম হয়ে একটি বিতরণ বোঝা। আরএল-তে, অফ-পলিসি শেখার চেষ্টা করার সময় এটি প্রায়ই আসে। যথা, আপনার নমুনাগুলি কিছু আচরণ নীতি দ্বারা উত্পাদিত হয় তবে আপনি একটি লক্ষ্য নীতি শিখতে চান। সুতরাং লক্ষ্য নীতিটি যে নমুনাগুলি তৈরি করেছে সেগুলির জন্য উত্পন্ন নমুনাগুলি কতটা গুরুত্বপূর্ণ / অনুরূপ তা পরিমাপ করা দরকার। সুতরাং, একটি ভারী বিতরণ থেকে নমুনা তৈরি করা হচ্ছে যা এই "গুরুত্বপূর্ণ" নমুনাগুলির পক্ষে রয়েছে। তবে যা গুরুত্বপূর্ণ তা চিহ্নিত করার জন্য অনেকগুলি পদ্ধতি রয়েছে এবং প্রয়োগের উপর নির্ভর করে তাদের কার্যকারিতা পৃথক হতে পারে।
গুরুত্ব স্যাম্পলিংয়ের এই অফ-পলিসি শৈলীর সর্বাধিক প্রচলিত পদ্ধতি লক্ষ্য নীতি দ্বারা একটি নমুনা তৈরি হওয়ার সম্ভাবনা কতটা তার একটি অনুপাত খুঁজে পাচ্ছে। তাং এবং অ্যাবেলের লেখা গুরুত্ব স্যাম্পলিং এবং সম্ভাবনা অনুপাতের নীতি গ্রেডিয়েন্ট (২০১০) এর মধ্যে একটি সংযোগ সম্পর্কিত কাগজ এই বিষয়টিকে অন্তর্ভুক্ত করে।
নমুনা দক্ষতা একটি নির্দিষ্ট কর্মক্ষমতা পৌঁছানোর জন্য প্রশিক্ষণের সময় কোনও এজেন্ট / অ্যালগরিদমকে পরিবেশে উত্পন্ন করার প্রয়োজনীয় পরিমাণ (উদাহরণস্বরূপ এটি গ্রহণের সংখ্যা এবং ফলাফল প্রাপ্ত রাষ্ট্রগুলির সংখ্যা + এটি পর্যবেক্ষণগুলি দেখায়) বোঝায়। স্বজ্ঞাতভাবে, আপনি বলতে পারেন যে একটি অ্যালগরিদম হ'ল নমুনা দক্ষ তবে যদি এটি তৈরি করা হয় এবং তার নীতিটি দ্রুত উন্নতি করে এমন অভিজ্ঞতার প্রতিটি অংশের ভাল ব্যবহার করতে পারে। যদি অভিজ্ঞতার অনেক নমুনা থেকে দরকারী কিছু শিখতে ব্যর্থ হয় এবং দ্রুত উন্নতি না করে তবে একটি অ্যালগরিদমের নমুনা দক্ষতা থাকে।
জাদেনের উত্তরে গুরুত্বের নমুনার ব্যাখ্যাটি বেশিরভাগই সঠিক বলে মনে হয়।
আপনার প্রশ্নের কাগজে, গুরুত্বের নমুনা হ'ল এমন উপাদানগুলির মধ্যে একটি যা 1) বহু-পদক্ষেপের ট্র্যাজেক্টরিগুলি থেকে শিখতে এবং 2) রিপ্লে বাফারগুলির অভিজ্ঞতা। এই দুটি জিনিস আগে একত্রিত করা সহজ ছিল না (কারণ গুরুত্বের নমুনা ছাড়াই মাল্টি-স্টেপ রিটার্নগুলি কেবলমাত্র পলিসি শেখার ক্ষেত্রেই সঠিক, এবং একটি রিপ্লে বাফারে পুরানো নমুনাগুলি একটি পুরানো নীতি দ্বারা তৈরি করা হয়েছিল যার অর্থ তাদের কাছ থেকে শেখা অফ-পলিসি )। এই দুটি জিনিসই স্বতন্ত্রভাবে নমুনার কার্যকারিতা উন্নত করে, যা বোঝায় যে এটি নমুনা দক্ষতার জন্যও উপকারী যদি তারা এখনও কোনওভাবে মিলিত হতে পারে।
..finding a ratio of how likely a sample is to be generated by the target policy
আমরা কেবল আচরণ নীতি জানি কিনা তা আমরা কীভাবে সিদ্ধান্ত নেব? লক্ষ্য নীতি কি আমাদের খুঁজে বের করতে হবে?