একটি মার্কোভিয়ান সিদ্ধান্ত প্রক্রিয়া প্রকৃতপক্ষে এক রাজ্য থেকে অন্য রাজ্যে যাওয়ার সাথে সম্পর্কিত এবং এটি মূলত পরিকল্পনা এবং সিদ্ধান্ত গ্রহণের জন্য ব্যবহৃত হয় ।
তত্ত্বটি
কেবলমাত্র তত্ত্বটি পুনরাবৃত্তি করে একটি এমডিপি হ'ল:
এমডিপি = ⟨ এস, এ , টি, আর , γ⟩
যেখানে রাষ্ট্রগুলি, ক্রিয়া, স্থানান্তর সম্ভাবনা (যেমন সম্ভাবনা রাজ্য থেকে অন্য রাজ্যে যাওয়ার জন্য একটি ক্রিয়াকলাপ দেওয়া হয়), পুরষ্কারগুলি (একটি নির্দিষ্ট রাষ্ট্র প্রদত্ত এবং সম্ভবত ক্রিয়া) এবং একটি ছাড়ের উপাদান যা ভবিষ্যতের পুরষ্কারগুলির গুরুত্বকে হ্রাস করতে ব্যবহৃত হয়।এসএকজনটিপিr ( গুলি)'| গুলি,ক)আরγ
সুতরাং এটি ব্যবহার করার জন্য আপনার পূর্বনির্ধারিত হওয়া দরকার:
- রাজ্য : এগুলি রোবোটিকের গ্রিড মানচিত্রের উদাহরণস্বরূপ বা দরজা খোলা এবং দরজা বন্ধ হিসাবে উল্লেখ করতে পারে ।
- ক্রিয়া : যেমন কর্মের একটি নির্দিষ্ট সেট যেমন উদাহরণস্বরূপ উত্তর, দক্ষিণ, পূর্ব, ইত্যাদি রোবটের জন্য যাওয়া, বা কোনও দরজা খোলানো এবং বন্ধ করা।
- স্থানান্তর সম্ভাবনা : একটি পদক্ষেপ দেওয়া থেকে এক রাজ্য থেকে অন্য রাজ্যে যাওয়ার সম্ভাবনা। যদি ক্রিয়া উদাহরণস্বরূপ, কি একটি খোলা দরজা সম্ভাব্যতা খোলা । নিখুঁত বিশ্বে পরবর্তীকালে 1.0 হতে পারে তবে এটি যদি একটি রোবট হয় তবে ডোরকনবকে সঠিকভাবে পরিচালনা করতে এটি ব্যর্থ হতে পারে। চলন্ত রোবটের ক্ষেত্রে আরেকটি উদাহরণ হ'ল উত্তরের ক্রিয়া , যা বেশিরভাগ ক্ষেত্রে এটি এর উত্তরে গ্রিড সেলে নিয়ে আসে তবে কিছু ক্ষেত্রে খুব বেশি স্থানান্তরিত হয়ে উদাহরণস্বরূপ পরবর্তী কক্ষে পৌঁছতে পারে।
- পুরষ্কার : এগুলি পরিকল্পনার জন্য গাইড করতে ব্যবহৃত হয়। গ্রিড উদাহরণের ক্ষেত্রে, আমরা একটি নির্দিষ্ট কক্ষে যেতে চাই এবং আমাদের কাছাকাছি পৌঁছলে পুরষ্কার আরও বেশি। দরজার উদাহরণের ক্ষেত্রে, একটি খোলা দরজা একটি উচ্চ পুরষ্কার দিতে পারে।
এমডিপি একবার সংজ্ঞায়িত হয়ে গেলে মান আইট্রেশন বা নীতি আইট্রেশন করে একটি নীতি শিখতে পারে যা প্রতিটি রাজ্যের প্রত্যাশিত পুরষ্কার গণনা করে। নীতি তারপর রাষ্ট্র প্রতি দেয় সেরা করতে (এমডিপি মডেল দেওয়া হয়) কর্ম।
সংক্ষেপে, একটি MDP কার্যকর যখন আপনি ক্রিয়াগুলির একটি দক্ষ ক্রম পরিকল্পনা করতে চান যেখানে আপনার ক্রিয়াকলাপ সর্বদা 100% কার্যকর হতে পারে না।
তোমার প্রশ্নগুলো
এটি কি ভবিষ্যদ্বাণী করতে ব্যবহার করা যেতে পারে?
আমি এটিকে পরিকল্পনা বলব, উদাহরণস্বরূপ রিগ্রেশনটির মতো পূর্বাভাস না দেওয়া ।
তা হলে কী ধরণের জিনিস?
উদাহরণ দেখুন ।
এটি কি অসীম পরিমাণে ডেটাগুলির মধ্যে নিদর্শনগুলি খুঁজে পেতে পারে?
MDPs করতে ব্যবহার করা হয় অতিরিক্ত শিক্ষা সংযোজন করা, নিদর্শন খুঁজে আপনার যা দরকার unsupervised লার্নিং । এবং না, আপনি অসীম পরিমাণে ডেটা পরিচালনা করতে পারবেন না। প্রকৃতপক্ষে, নীতি সন্ধানের জটিলতা রাজ্যগুলির সংখ্যার সাথে তাত্পর্যপূর্ণভাবে বৃদ্ধি পায়।| এস|
এই অ্যালগরিদম আমার জন্য কি করতে পারে।
উদাহরণ দেখুন ।
এমডিপিগুলির প্রয়োগের উদাহরণ
- হোয়াইট, ডিজে (1993) অ্যাপ্লিকেশনগুলির একটি বৃহত তালিকার উল্লেখ করেছে:
- ফসল সংগ্রহ: জনসংখ্যার কত সদস্যকে প্রজননের জন্য রেখে যেতে হয়।
- কৃষিকাজ: আবহাওয়া এবং মাটি রাজ্যের উপর ভিত্তি করে কতটা রোপণ করতে হবে।
- জলের সংস্থান: জলাশয়ে সঠিক জলের স্তর রাখুন।
- পরিদর্শন, রক্ষণাবেক্ষণ এবং মেরামত: বয়স, শর্ত ইত্যাদির ভিত্তিতে কখন প্রতিস্থাপন / পরিদর্শন করবেন to
- ক্রয় এবং উত্পাদন: চাহিদার উপর ভিত্তি করে কত উত্পাদন করতে হবে।
- সারি: অপেক্ষার সময় কমিয়ে দিন।
- ...
- ফিনান্স: শেয়ারে কত বিনিয়োগ করবেন তা স্থির করছেন।
- যন্ত্রমানব নির্মাণ বিদ্যা:
এবং আরও বেশ কয়েকটি মডেল রয়েছে। এর চেয়েও আকর্ষণীয় একটি মডেল হ'ল আংশিক পর্যবেক্ষণযোগ্য মার্কোভিয়ান সিদ্ধান্ত প্রক্রিয়া , যেখানে রাজ্যগুলি সম্পূর্ণ দৃশ্যমান হয় না এবং পরিবর্তে, পর্যবেক্ষণগুলি বর্তমান রাষ্ট্র সম্পর্কে ধারণা পেতে ব্যবহৃত হয়, তবে এটি এই প্রশ্নের আওতার বাইরে।
অতিরিক্ত তথ্য
একটি স্টোকাস্টিক প্রক্রিয়া হ'ল মার্কোভিয়ান (বা মার্কভ সম্পত্তি রয়েছে) যদি ভবিষ্যতের রাজ্যের শর্তসাপেক্ষ সম্ভাবনা বিতরণ কেবলমাত্র বর্তমান অবস্থার উপর নির্ভর করে, এবং পূর্ববর্তীগুলির উপর নয় (যেমন পূর্ববর্তী রাজ্যের তালিকায় নয়)।