সিউডো-এলোমেলো অনুক্রমের পূর্বাভাস


9

দাবি অস্বীকার: আমি একজন জীববিজ্ঞানী, সুতরাং (সম্ভবত) এই জাতীয় অশোধিত পদগুলিতে মৌলিক প্রশ্নের উদ্বেগের জন্য দুঃখিত sorry

আমি এই প্রশ্নটি এখানে বা ডিএস / এসসি-তে জিজ্ঞাসা করা উচিত কিনা তা আমি নিশ্চিত নই, তবে সিএস তিনটির মধ্যে বৃহত্তম, সুতরাং এখানে যায়। (আমি পোস্ট করার পরে, আমার কাছে এমনটি ঘটেছিল যে ক্রস-ভ্যালিডেটেড এর পক্ষে ভাল জায়গা হতে পারে তবে হায় হায়)।

কল্পনা করুন যে কোনও এজেন্ট আছেন, তিনি বাইনারি সিদ্ধান্ত নেন। এবং একটি পরিবেশ, যা এজেন্টের প্রতিটি সিদ্ধান্তের জন্য ("ট্রায়ালগুলি") হয় এজেন্টকে পুরস্কৃত করে, না দেয়। এজেন্টের সিদ্ধান্তগুলি পুরষ্কারের মানদণ্ড সহজ নয়। সাধারণ মানদণ্ডে এলোমেলো, তবে তাদের সীমাবদ্ধতা রয়েছে, উদাহরণস্বরূপ, পরিবেশ একই সিদ্ধান্তের জন্য 3 বারের বেশি পুরষ্কার দেয় না এবং পুরষ্কার প্রাপ্ত সিদ্ধান্তটিকে পর পর 4 বারের চেয়ে বেশি বিকল্প দেয় না।

মানদণ্ডের সিক্যুয়েন্সটি তখন এর মতো দেখতে পারে

0 0 0 1 0 1 0 0 1 1 1 0 1 1 0 0 1 0 ...

কখনো ও নহে

0 0 0 1 0 1 0 0 1 1 1 1 1 1 0 0 1 0 ...

কারণ পুরষ্কারের মানদণ্ড 3 বারের বেশি পুনরাবৃত্তি করতে পারে না।

এই পরিস্থিতিতে এই পরিকল্পনাটি কার্যকর করা সহজ যে আদর্শ পর্যবেক্ষককে পুরষ্কারটি সর্বাধিক করার জন্য গ্রহণ করা উচিত। এর লাইন বরাবর কিছু

  1. এলোমেলো সিদ্ধান্ত
  2. যদি আপনি সেই মানদণ্ডটি 3 বার পুনরাবৃত্তি সনাক্ত করেন - সর্বশেষ মানদণ্ডের থেকে বিপরীতে সিদ্ধান্ত নিন
  3. যদি আপনি সেই মানদণ্ডটি 4 বার বিকল্প হিসাবে সনাক্ত করেন তবে শেষ মানদণ্ড অনুযায়ী সিদ্ধান্ত নিন

এখন, কঠিন অংশ। এখন প্রতিটি বিচারের মানদণ্ড কেবল পূর্ববর্তী মানদণ্ডের ইতিহাসের উপর নির্ভর করে না, তবে এজেন্টের সিদ্ধান্তের ইতিহাসের উপরও নির্ভর করে, উদাহরণস্বরূপ যদি এজেন্ট সর্বশেষ 10 টি পরীক্ষার মধ্যে 8 জনেরও বেশি বিকল্প হয়, শেষ বারের এজেন্ট হিসাবে একই সিদ্ধান্তকে পুরস্কৃত করে (যেমন) যদি এজেন্টকে বিকল্প হতে নিরুৎসাহিত করতে হয়) এবং যদি এজেন্ট সর্বশেষ দশটি বিচারের 8 টিরও বেশি, যেমন সে পক্ষপাতদুষ্ট, একই সিদ্ধান্ত পুনরাবৃত্তি করে, পক্ষপাতিত্বের বিপরীতে মানদণ্ড তৈরি করে make সিদ্ধান্তগুলির ইতিহাসের তুলনায় মানদণ্ডের ইতিহাসের অগ্রাধিকারটি আগে থেকেই নির্দিষ্ট করা থাকে, তাই কখনই অস্পষ্টতা থাকে না।

সিদ্ধান্ত (d) এবং মানদণ্ড (গ) এর ক্রম এখন এই মত হতে পারে

d: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 1 1 0 1 0 1 0 ...
c: 1 0 1 0 0 0 1 1 0 0 1 1 1 1 1 1 1 1 0 1 0 0 1 1 0 0 0 1 0 ...
                       ↑ here criteria counteract bias in decisions  

এজেন্টের সর্বাধিক কৌশল উদ্ভাবনের কোনও সহজ উপায় আমি দেখতে পাচ্ছি না। তবে আমি নিশ্চিত যে একটি অবশ্যই থাকতে হবে এবং কোনও ধরণের চালাক মেশিন লার্নিং অ্যালগরিদম এটি সনাক্ত করতে সক্ষম হবে।

এই প্রশ্নটি কীভাবে সমাধান করা যায় সে সম্পর্কে আমার প্রশ্ন এতটা নয় (যদিও আপনি কোনও সমাধানের পরামর্শ দিলে আমি খুশি হব), তবে আরও কীভাবে এই ধরণের সমস্যা বলা হয়? আমি এটি সম্পর্কে কোথায় পড়তে পারি? কোনও বিমূর্ত সমাধান আছে বা কেবল সিমুলেশন সাহায্য করতে পারে? সাধারণভাবে, আমি কীভাবে একজন জীববিজ্ঞানী হিসাবে এই ধরণের সমস্যার কাছে যেতে পারি?


2
উদাহরণস্বরূপ অটোরেগ্রেসিভ টাইম সিরিজ বিশ্লেষণ দেখুন । আপনি যদি ইনপুট ডেটা সম্পর্কে আরও বিস্তারিত থাকতেন তবে এটি সহায়তা করবে। এটা কি জীববিজ্ঞান থেকে? স্ট্যান্ড সমস্যার জন্য স্ট্যান্ড কৌশল আছে। বার বার এএনএন (কৃত্রিম নিউরাল নেট) এটিকেও পরিচালনা করে। কম্পিউটার সায়েন্স চ্যাট
vzn

2
লুকানো মার্কভ মডেলগুলি একটি দরকারী সরঞ্জাম হতে পারে।
রাফেল

1
আপনি ফলো-দ্য লিডার এবং অন্যান্য রূপগুলি পড়তে চাইতে পারেন - অনলাইন prediction.net/?n=Main.FollowTheLeader
মতিএন

2
আমি মনে করি আপনি যা উল্লেখ করছেন সেটি এমএল-এর লোকেরা রিইনফোর্সমেন্ট লার্নিংকে কল করে ।
কাভেহ

1
PS: আপনি যদি কিছু সময়ের পরে এখানে উত্তর না পান তবে আপনি ক্রস ভ্যালিডেটে পোস্ট করার চেষ্টা করতে পারেন ।
কাভেহ

উত্তর:


1

রিইনফোর্সমেন্ট লার্নিং ব্যবহার করে আপনি এই সমস্যার কাছে যেতে পারেন।

এর জন্য একটি ক্লাসিক বই হ'ল সাটন এবং বার্তো:

দ্বিতীয় সংস্করণের খসড়াটি বিনামূল্যে পাওয়া যায়: https://webdocs.cs.ualberta.ca/~sutton/book/the-book.html

আপনার সমস্যা মার্কোভিয়ান করার জন্য, প্রতিটি দশকে শেষ দশটি সিদ্ধান্তের ভেক্টর হিসাবে সংজ্ঞায়িত করুন। আপনার ক্রিয়াগুলি 1 বা 0 হবে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.