নমুনা দক্ষতা কী এবং কীভাবে তা সার্থক করার জন্য গুরুত্বপূর্ণ নমুনা ব্যবহার করা যেতে পারে?

উদাহরণস্বরূপ, এই কাগজের শিরোনামটি পড়ে: "নমুনা দক্ষ অভিনেতা-সমালোচক অভিজ্ঞতার পুনরায় খেলুন"।

নমুনা দক্ষতা কী এবং কীভাবে তা সার্থক করার জন্য গুরুত্বপূর্ণ নমুনা ব্যবহার করা যেতে পারে?

reinforcement-learning statistical-ai importance-sampling

উত্তর:

একটি অ্যালগোরিদম হ'ল নমুনা দক্ষ যদি এটি প্রতিটি নমুনার মধ্যে সবচেয়ে বেশি লাভ করতে পারে। কীভাবে প্রথমবার পং খেলতে হবে তা শিখার চেষ্টা করে শিখুন। একজন মানুষ হিসাবে, খুব কম নমুনার ভিত্তিতে গেমটি খেলতে শিখতে আপনাকে কয়েক সেকেন্ডের মধ্যে নিতে হবে। এটি আপনাকে খুব "নমুনা দক্ষ" করে তোলে। আধুনিক আরএল অ্যালগরিদমগুলিকে আপনার তুলনায় হাজার গুণ বেশি ডেটা দেখতে হবে তাই তারা তুলনামূলকভাবে, নমুনা অক্ষম। $100$

অফ-পলিসি লার্নিংয়ের ক্ষেত্রে, সমস্ত নমুনাগুলি কার্যকর হয় না যেগুলি যেগুলিতে আমরা আগ্রহী সেই বিতরণের অংশ নয়। গুরুত্বের নমুনাএই নমুনাগুলি ফিল্টার করার একটি কৌশল। এর মূল ব্যবহারটি ছিল কেবলমাত্র একটি ভিন্ন তবে সম্পর্কিত বিতরণ থেকে নমুনা নিতে সক্ষম হয়ে একটি বিতরণ বোঝা। আরএল-তে, অফ-পলিসি শেখার চেষ্টা করার সময় এটি প্রায়ই আসে। যথা, আপনার নমুনাগুলি কিছু আচরণ নীতি দ্বারা উত্পাদিত হয় তবে আপনি একটি লক্ষ্য নীতি শিখতে চান। সুতরাং লক্ষ্য নীতিটি যে নমুনাগুলি তৈরি করেছে সেগুলির জন্য উত্পন্ন নমুনাগুলি কতটা গুরুত্বপূর্ণ / অনুরূপ তা পরিমাপ করা দরকার। সুতরাং, একটি ভারী বিতরণ থেকে নমুনা তৈরি করা হচ্ছে যা এই "গুরুত্বপূর্ণ" নমুনাগুলির পক্ষে রয়েছে। তবে যা গুরুত্বপূর্ণ তা চিহ্নিত করার জন্য অনেকগুলি পদ্ধতি রয়েছে এবং প্রয়োগের উপর নির্ভর করে তাদের কার্যকারিতা পৃথক হতে পারে।

গুরুত্ব স্যাম্পলিংয়ের এই অফ-পলিসি শৈলীর সর্বাধিক প্রচলিত পদ্ধতি লক্ষ্য নীতি দ্বারা একটি নমুনা তৈরি হওয়ার সম্ভাবনা কতটা তার একটি অনুপাত খুঁজে পাচ্ছে। তাং এবং অ্যাবেলের লেখা গুরুত্ব স্যাম্পলিং এবং সম্ভাবনা অনুপাতের নীতি গ্রেডিয়েন্ট (২০১০) এর মধ্যে একটি সংযোগ সম্পর্কিত কাগজ এই বিষয়টিকে অন্তর্ভুক্ত করে।

— জাদেন ট্রাভনিক
সূত্র

আবার ধন্যবাদ. বুনিয়াদি প্রশ্ন: ..finding a ratio of how likely a sample is to be generated by the target policyআমরা কেবল আচরণ নীতি জানি কিনা তা আমরা কীভাবে সিদ্ধান্ত নেব? লক্ষ্য নীতি কি আমাদের খুঁজে বের করতে হবে?

— গোকুল এনসি

লক্ষ্য নীতি অনুপাতটি খুঁজে পেয়ে আমরা সহজেই এর একটি অনুমান পেতে পারি, পাই, সেই পদক্ষেপের আচরণ নীতিটি গ্রহণ করে, মি। সুতরাং অনুপাত হ'ল পি = পাই (গুলি, ক) / মিউ (গুলি), যেখানে ক এবং স যথাক্রমে মু এবং রাষ্ট্র দ্বারা নির্বাচিত ক্রিয়া।

— জাদেন ট্রাভনিক

আমার প্রশ্ন ছিল, আমরা পাই (গুলি, ক) কোথা থেকে পাই, যখন আমাদের কেবল মু (স, ক) রয়েছে? এটি হ'ল আমরা লক্ষ্য নীতিটি কোথা থেকে পাব, যদিও এটি আমাদের লক্ষ্য?

— গোকুল এনসি

আপনার টার্গেট নীতিটি এলোমেলোভাবে শুরু করা হয়েছে, এটি আপডেট করার বিষয় এটি।

— জাদেন ট্রাভনিক

নমুনা দক্ষতা একটি নির্দিষ্ট কর্মক্ষমতা পৌঁছানোর জন্য প্রশিক্ষণের সময় কোনও এজেন্ট / অ্যালগরিদমকে পরিবেশে উত্পন্ন করার প্রয়োজনীয় পরিমাণ (উদাহরণস্বরূপ এটি গ্রহণের সংখ্যা এবং ফলাফল প্রাপ্ত রাষ্ট্রগুলির সংখ্যা + এটি পর্যবেক্ষণগুলি দেখায়) বোঝায়। স্বজ্ঞাতভাবে, আপনি বলতে পারেন যে একটি অ্যালগরিদম হ'ল নমুনা দক্ষ তবে যদি এটি তৈরি করা হয় এবং তার নীতিটি দ্রুত উন্নতি করে এমন অভিজ্ঞতার প্রতিটি অংশের ভাল ব্যবহার করতে পারে। যদি অভিজ্ঞতার অনেক নমুনা থেকে দরকারী কিছু শিখতে ব্যর্থ হয় এবং দ্রুত উন্নতি না করে তবে একটি অ্যালগরিদমের নমুনা দক্ষতা থাকে।

জাদেনের উত্তরে গুরুত্বের নমুনার ব্যাখ্যাটি বেশিরভাগই সঠিক বলে মনে হয়।

আপনার প্রশ্নের কাগজে, গুরুত্বের নমুনা হ'ল এমন উপাদানগুলির মধ্যে একটি যা 1) বহু-পদক্ষেপের ট্র্যাজেক্টরিগুলি থেকে শিখতে এবং 2) রিপ্লে বাফারগুলির অভিজ্ঞতা। এই দুটি জিনিস আগে একত্রিত করা সহজ ছিল না (কারণ গুরুত্বের নমুনা ছাড়াই মাল্টি-স্টেপ রিটার্নগুলি কেবলমাত্র পলিসি শেখার ক্ষেত্রেই সঠিক, এবং একটি রিপ্লে বাফারে পুরানো নমুনাগুলি একটি পুরানো নীতি দ্বারা তৈরি করা হয়েছিল যার অর্থ তাদের কাছ থেকে শেখা অফ-পলিসি )। এই দুটি জিনিসই স্বতন্ত্রভাবে নমুনার কার্যকারিতা উন্নত করে, যা বোঝায় যে এটি নমুনা দক্ষতার জন্যও উপকারী যদি তারা এখনও কোনওভাবে মিলিত হতে পারে।

— ডেনিস সুমারস
সূত্র