দাবি অস্বীকার: আমি একজন জীববিজ্ঞানী, সুতরাং (সম্ভবত) এই জাতীয় অশোধিত পদগুলিতে মৌলিক প্রশ্নের উদ্বেগের জন্য দুঃখিত sorry
আমি এই প্রশ্নটি এখানে বা ডিএস / এসসি-তে জিজ্ঞাসা করা উচিত কিনা তা আমি নিশ্চিত নই, তবে সিএস তিনটির মধ্যে বৃহত্তম, সুতরাং এখানে যায়। (আমি পোস্ট করার পরে, আমার কাছে এমনটি ঘটেছিল যে ক্রস-ভ্যালিডেটেড এর পক্ষে ভাল জায়গা হতে পারে তবে হায় হায়)।
কল্পনা করুন যে কোনও এজেন্ট আছেন, তিনি বাইনারি সিদ্ধান্ত নেন। এবং একটি পরিবেশ, যা এজেন্টের প্রতিটি সিদ্ধান্তের জন্য ("ট্রায়ালগুলি") হয় এজেন্টকে পুরস্কৃত করে, না দেয়। এজেন্টের সিদ্ধান্তগুলি পুরষ্কারের মানদণ্ড সহজ নয়। সাধারণ মানদণ্ডে এলোমেলো, তবে তাদের সীমাবদ্ধতা রয়েছে, উদাহরণস্বরূপ, পরিবেশ একই সিদ্ধান্তের জন্য 3 বারের বেশি পুরষ্কার দেয় না এবং পুরষ্কার প্রাপ্ত সিদ্ধান্তটিকে পর পর 4 বারের চেয়ে বেশি বিকল্প দেয় না।
মানদণ্ডের সিক্যুয়েন্সটি তখন এর মতো দেখতে পারে
0 0 0 1 0 1 0 0 1 1 1 0 1 1 0 0 1 0 ...
কখনো ও নহে
0 0 0 1 0 1 0 0 1 1 1 1 1 1 0 0 1 0 ...
কারণ পুরষ্কারের মানদণ্ড 3 বারের বেশি পুনরাবৃত্তি করতে পারে না।
এই পরিস্থিতিতে এই পরিকল্পনাটি কার্যকর করা সহজ যে আদর্শ পর্যবেক্ষককে পুরষ্কারটি সর্বাধিক করার জন্য গ্রহণ করা উচিত। এর লাইন বরাবর কিছু
- এলোমেলো সিদ্ধান্ত
- যদি আপনি সেই মানদণ্ডটি 3 বার পুনরাবৃত্তি সনাক্ত করেন - সর্বশেষ মানদণ্ডের থেকে বিপরীতে সিদ্ধান্ত নিন
- যদি আপনি সেই মানদণ্ডটি 4 বার বিকল্প হিসাবে সনাক্ত করেন তবে শেষ মানদণ্ড অনুযায়ী সিদ্ধান্ত নিন
এখন, কঠিন অংশ। এখন প্রতিটি বিচারের মানদণ্ড কেবল পূর্ববর্তী মানদণ্ডের ইতিহাসের উপর নির্ভর করে না, তবে এজেন্টের সিদ্ধান্তের ইতিহাসের উপরও নির্ভর করে, উদাহরণস্বরূপ যদি এজেন্ট সর্বশেষ 10 টি পরীক্ষার মধ্যে 8 জনেরও বেশি বিকল্প হয়, শেষ বারের এজেন্ট হিসাবে একই সিদ্ধান্তকে পুরস্কৃত করে (যেমন) যদি এজেন্টকে বিকল্প হতে নিরুৎসাহিত করতে হয়) এবং যদি এজেন্ট সর্বশেষ দশটি বিচারের 8 টিরও বেশি, যেমন সে পক্ষপাতদুষ্ট, একই সিদ্ধান্ত পুনরাবৃত্তি করে, পক্ষপাতিত্বের বিপরীতে মানদণ্ড তৈরি করে make সিদ্ধান্তগুলির ইতিহাসের তুলনায় মানদণ্ডের ইতিহাসের অগ্রাধিকারটি আগে থেকেই নির্দিষ্ট করা থাকে, তাই কখনই অস্পষ্টতা থাকে না।
সিদ্ধান্ত (d) এবং মানদণ্ড (গ) এর ক্রম এখন এই মত হতে পারে
d: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 1 1 0 1 0 1 0 ...
c: 1 0 1 0 0 0 1 1 0 0 1 1 1 1 1 1 1 1 0 1 0 0 1 1 0 0 0 1 0 ...
↑ here criteria counteract bias in decisions
এজেন্টের সর্বাধিক কৌশল উদ্ভাবনের কোনও সহজ উপায় আমি দেখতে পাচ্ছি না। তবে আমি নিশ্চিত যে একটি অবশ্যই থাকতে হবে এবং কোনও ধরণের চালাক মেশিন লার্নিং অ্যালগরিদম এটি সনাক্ত করতে সক্ষম হবে।
এই প্রশ্নটি কীভাবে সমাধান করা যায় সে সম্পর্কে আমার প্রশ্ন এতটা নয় (যদিও আপনি কোনও সমাধানের পরামর্শ দিলে আমি খুশি হব), তবে আরও কীভাবে এই ধরণের সমস্যা বলা হয়? আমি এটি সম্পর্কে কোথায় পড়তে পারি? কোনও বিমূর্ত সমাধান আছে বা কেবল সিমুলেশন সাহায্য করতে পারে? সাধারণভাবে, আমি কীভাবে একজন জীববিজ্ঞানী হিসাবে এই ধরণের সমস্যার কাছে যেতে পারি?