মার্কভ সিদ্ধান্ত প্রক্রিয়াগুলির বাস্তব জীবনের উদাহরণ


20

আমি প্রচুর টিউটোরিয়াল ভিডিও দেখছি এবং সেগুলি দেখতে একই রকম। এটি উদাহরণস্বরূপ: https://www.youtube.com/watch?v=ip4iSMRW5X4

তারা রাষ্ট্র, ক্রিয়া এবং সম্ভাবনাগুলি যা ভাল তা ব্যাখ্যা করে। ব্যক্তিটি এটি ঠিক আছে তবে এটি বাস্তব জীবনে কী ব্যবহৃত হবে সে সম্পর্কে আমি কোনওরকম ধারণা পেতে পারি না। আমি এখনও পর্যন্ত কোনও তালিকা জুড়ে আসিনি। দাবা সবচেয়ে সাধারণ যেটি আমি দেখি।

এটি কি ভবিষ্যদ্বাণী করতে ব্যবহার করা যেতে পারে? তা হলে কী ধরণের জিনিস? এটি তথ্যের অসীম পরিমাণের নিদর্শনগুলি খুঁজে পেতে পারে? এই অ্যালগরিদম আমার জন্য কি করতে পারে।

বোনাস: এটিও মনে হয় এমডিপির মতোই এক রাজ্য থেকে অন্য রাজ্যে যাওয়ার কথা, এটি কি সত্য?

উত্তর:


28

একটি মার্কোভিয়ান সিদ্ধান্ত প্রক্রিয়া প্রকৃতপক্ষে এক রাজ্য থেকে অন্য রাজ্যে যাওয়ার সাথে সম্পর্কিত এবং এটি মূলত পরিকল্পনা এবং সিদ্ধান্ত গ্রহণের জন্য ব্যবহৃত হয় ।

তত্ত্বটি

কেবলমাত্র তত্ত্বটি পুনরাবৃত্তি করে একটি এমডিপি হ'ল:

এমডিপি=এস,একজন,টি,আর,γ

যেখানে রাষ্ট্রগুলি, ক্রিয়া, স্থানান্তর সম্ভাবনা (যেমন সম্ভাবনা রাজ্য থেকে অন্য রাজ্যে যাওয়ার জন্য একটি ক্রিয়াকলাপ দেওয়া হয়), পুরষ্কারগুলি (একটি নির্দিষ্ট রাষ্ট্র প্রদত্ত এবং সম্ভবত ক্রিয়া) এবং একটি ছাড়ের উপাদান যা ভবিষ্যতের পুরষ্কারগুলির গুরুত্বকে হ্রাস করতে ব্যবহৃত হয়।এসএকজনটিপিR(গুলি'|গুলি,একটি)আরγ

সুতরাং এটি ব্যবহার করার জন্য আপনার পূর্বনির্ধারিত হওয়া দরকার:

  1. রাজ্য : এগুলি রোবোটিকের গ্রিড মানচিত্রের উদাহরণস্বরূপ বা দরজা খোলা এবং দরজা বন্ধ হিসাবে উল্লেখ করতে পারে
  2. ক্রিয়া : যেমন কর্মের একটি নির্দিষ্ট সেট যেমন উদাহরণস্বরূপ উত্তর, দক্ষিণ, পূর্ব, ইত্যাদি রোবটের জন্য যাওয়া, বা কোনও দরজা খোলানো এবং বন্ধ করা।
  3. স্থানান্তর সম্ভাবনা : একটি পদক্ষেপ দেওয়া থেকে এক রাজ্য থেকে অন্য রাজ্যে যাওয়ার সম্ভাবনা। যদি ক্রিয়া উদাহরণস্বরূপ, কি একটি খোলা দরজা সম্ভাব্যতা খোলা । নিখুঁত বিশ্বে পরবর্তীকালে 1.0 হতে পারে তবে এটি যদি একটি রোবট হয় তবে ডোরকনবকে সঠিকভাবে পরিচালনা করতে এটি ব্যর্থ হতে পারে। চলন্ত রোবটের ক্ষেত্রে আরেকটি উদাহরণ হ'ল উত্তরের ক্রিয়া , যা বেশিরভাগ ক্ষেত্রে এটি এর উত্তরে গ্রিড সেলে নিয়ে আসে তবে কিছু ক্ষেত্রে খুব বেশি স্থানান্তরিত হয়ে উদাহরণস্বরূপ পরবর্তী কক্ষে পৌঁছতে পারে।
  4. পুরষ্কার : এগুলি পরিকল্পনার জন্য গাইড করতে ব্যবহৃত হয়। গ্রিড উদাহরণের ক্ষেত্রে, আমরা একটি নির্দিষ্ট কক্ষে যেতে চাই এবং আমাদের কাছাকাছি পৌঁছলে পুরষ্কার আরও বেশি। দরজার উদাহরণের ক্ষেত্রে, একটি খোলা দরজা একটি উচ্চ পুরষ্কার দিতে পারে।

এমডিপি একবার সংজ্ঞায়িত হয়ে গেলে মান আইট্রেশন বা নীতি আইট্রেশন করে একটি নীতি শিখতে পারে যা প্রতিটি রাজ্যের প্রত্যাশিত পুরষ্কার গণনা করে। নীতি তারপর রাষ্ট্র প্রতি দেয় সেরা করতে (এমডিপি মডেল দেওয়া হয়) কর্ম।

সংক্ষেপে, একটি MDP কার্যকর যখন আপনি ক্রিয়াগুলির একটি দক্ষ ক্রম পরিকল্পনা করতে চান যেখানে আপনার ক্রিয়াকলাপ সর্বদা 100% কার্যকর হতে পারে না।

তোমার প্রশ্নগুলো

এটি কি ভবিষ্যদ্বাণী করতে ব্যবহার করা যেতে পারে?

আমি এটিকে পরিকল্পনা বলব, উদাহরণস্বরূপ রিগ্রেশনটির মতো পূর্বাভাস না দেওয়া ।

তা হলে কী ধরণের জিনিস?

উদাহরণ দেখুন ।

এটি কি অসীম পরিমাণে ডেটাগুলির মধ্যে নিদর্শনগুলি খুঁজে পেতে পারে?

MDPs করতে ব্যবহার করা হয় অতিরিক্ত শিক্ষা সংযোজন করা, নিদর্শন খুঁজে আপনার যা দরকার unsupervised লার্নিং । এবং না, আপনি অসীম পরিমাণে ডেটা পরিচালনা করতে পারবেন না। প্রকৃতপক্ষে, নীতি সন্ধানের জটিলতা রাজ্যগুলির সংখ্যার সাথে তাত্পর্যপূর্ণভাবে বৃদ্ধি পায়।|এস|

এই অ্যালগরিদম আমার জন্য কি করতে পারে।

উদাহরণ দেখুন ।

এমডিপিগুলির প্রয়োগের উদাহরণ

এবং আরও বেশ কয়েকটি মডেল রয়েছে। এর চেয়েও আকর্ষণীয় একটি মডেল হ'ল আংশিক পর্যবেক্ষণযোগ্য মার্কোভিয়ান সিদ্ধান্ত প্রক্রিয়া , যেখানে রাজ্যগুলি সম্পূর্ণ দৃশ্যমান হয় না এবং পরিবর্তে, পর্যবেক্ষণগুলি বর্তমান রাষ্ট্র সম্পর্কে ধারণা পেতে ব্যবহৃত হয়, তবে এটি এই প্রশ্নের আওতার বাইরে।

অতিরিক্ত তথ্য

একটি স্টোকাস্টিক প্রক্রিয়া হ'ল মার্কোভিয়ান (বা মার্কভ সম্পত্তি রয়েছে) যদি ভবিষ্যতের রাজ্যের শর্তসাপেক্ষ সম্ভাবনা বিতরণ কেবলমাত্র বর্তমান অবস্থার উপর নির্ভর করে, এবং পূর্ববর্তীগুলির উপর নয় (যেমন পূর্ববর্তী রাজ্যের তালিকায় নয়)।


2
ক্রস ভ্যালিডেটে আমি এটি সম্ভবত সবচেয়ে পরিষ্কার উত্তর পেয়েছি।
লুকানো মার্কভ মডেল

কোনও সুযোগে আপনি লিঙ্কগুলি ঠিক করতে পারবেন? এর মধ্যে কিছু ভাঙা বা পুরানো দেখা যায়।
কম্পিউটার

সুতরাং কোনো প্রক্রিয়া আছে যা states, actions, transition probabilitiesএবং rewardsসংজ্ঞায়িত Markovian হিসেবে আখ্যায়িত করা হবে?
সুহেল গুপ্ত
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.