আমি যতদূর সচেতন, ঠিক কেন / কখন আমাদের একীকরণের ঘাটতি ঘটে - বা আরও খারাপ কিছু সময় বিচ্যুত হওয়ার আশঙ্কা রয়েছে তা সম্পর্কে একটি সত্যই পরিষ্কার, আনুষ্ঠানিক বোঝা পাওয়া এখনও কিছুটা উন্মুক্ত সমস্যা। এটি সাধারণত "মারাত্মক ত্রয়ী" হিসাবে চিহ্নিত করা হয় ( সুতান এবং বার্তোর বইয়ের দ্বিতীয় সংস্করণের ১১.৩ দেখুন) এর সংমিশ্রণ:
- ফাংশন আনুমানিক, এবং
- বুটস্ট্র্যাপিং (আমাদের প্রশিক্ষণ লক্ষ্যসমূহের গণনায় আমাদের নিজস্ব মূল্য অনুমান ব্যবহার করে, যেমনটি করা হয় Qবিদ্যুতায়ন), এবং
- অফ-পলিসি প্রশিক্ষণ (Qবিদ্যুতায়ন প্রকৃতপক্ষে অফ-পলিসি)।
এটি কেবলমাত্র আমাদের কেসেসের অভাব এবং / অথবা বিচ্যুতির ঝুঁকির মধ্যে আছে এমন একটি ক্ষেত্রে (সম্ভবত অবহিত নয়) বিবরণ দেয় তবে এখনও কেন আমাদের জানায় না যে সেসব ক্ষেত্রে কেন এটি ঘটে।
জন এর উত্তর ইতিমধ্যে অন্তর্দৃষ্টি প্রদান করে যে সমস্যার অংশটি হ'ল ফাংশন সান্নিধ্যের ব্যবহার সহজেই এমন পরিস্থিতিতে পরিচালিত করতে পারে যেখানে আপনার ফাংশন আনুমানিকটি সত্য উপস্থাপনের পক্ষে যথেষ্ট শক্তিশালী নাQ∗ ফাংশন, সর্বদা আনুমানিক ত্রুটি থাকতে পারে যা আলাদা ফাংশন আনুমানিকের দিকে স্যুইচ না করে পরিত্রাণ পাওয়া অসম্ভব।
ব্যক্তিগতভাবে, আমি মনে করি এই স্বজ্ঞাততাটি বুঝতে সাহায্য করে যে কেন অ্যালগরিদম সর্বোত্তম সমাধানে সংহতকরণের গ্যারান্টি দিতে পারে না, তবে আমি এখনও স্বজ্ঞাতভাবে আশা করব যে এটি সম্ভবত "স্থিতিশীল" সমাধানে "রূপান্তর" করতে সক্ষম হবে যা সর্বোত্তম সম্ভাব্য সীমাবদ্ধতা given নির্বাচিত ফাংশন উপস্থাপনার অন্তর্নিহিত বিধিনিষেধগুলি। প্রকৃতপক্ষে, আমরা অন-পলিসি প্রশিক্ষণে (যেমন, সরসা) স্যুইচ করার সময় আমরা বাস্তবে এটি পর্যবেক্ষণ করি, অন্তত ক্ষেত্রে লিনিয়ার ফাংশন আনুমানিকর ক্ষেত্রে।
এই প্রশ্নের সাথে আমার নিজের স্বজ্ঞাততাটি সাধারণত ছিল যে সমস্যার একটি গুরুত্বপূর্ণ উত্স হচ্ছে সাধারণীকরণ । সারণী সেটিংয়ে, আমাদের সম্পূর্ণ বিচ্ছিন্ন এন্ট্রি রয়েছেQ(s,a) সবার জন্য (s,a)জোড়া। যখনই আমরা একটি এন্ট্রির জন্য আমাদের অনুমান আপডেট করি তখন এটি অন্য সমস্ত এন্ট্রিগুলিকে অবিচলিতভাবে ছেড়ে দেয় (কমপক্ষে প্রাথমিকভাবে - আপডেটের নিয়মে বুটস্ট্র্যাপিংয়ের কারণে ভবিষ্যতের আপডেটগুলিতে অন্যান্য এন্ট্রিগুলিতে কিছু প্রভাব থাকতে পারে)। পছন্দ মতো অ্যালগরিদমের জন্য নিয়ম আপডেট করুনQআলিয়ারিং এবং সারসা কখনও কখনও "দুর্ভাগ্যজনক" হয়ে গেলে "ভুল" দিকের দিকে আপডেট হতে পারে তবে প্রত্যাশায় তারা সাধারণত সঠিক "দিকনির্দেশ" এর দিকে আপডেট হয়। স্বজ্ঞাতভাবে, এর অর্থ এটি হ'ল টেবিলার সেটিংয়ে, প্রত্যাশায় আমরা আস্তে আস্তে, ধীরে ধীরে বিচ্ছিন্নভাবে কোনও প্রবেশিকায় কোনও ভুল সংশোধন করব, সম্ভবত অন্যান্য এন্ট্রিগুলির ক্ষতি না করেই।
ফাংশন সান্নিধ্য সঙ্গে, যখন আমরা আমাদের আপডেট করি Q(s,a) এক জন্য অনুমান (s,a)যুগল, এটা সম্ভাব্য এছাড়াও প্রভাবিত করতে পারে সব আমাদের অন্যান্য অনুমান জন্য সব অন্যান্য রাষ্ট্রীয় কর্ম জোড়া। স্বজ্ঞাতভাবে, এর অর্থ হ'ল আমাদের আর সারণীর সেটিংয়ের মতো এন্ট্রিগুলির সুন্দর বিচ্ছিন্নতা নেই এবং একটি এন্ট্রিতে "ফিক্সিং" ভুলের অন্যান্য এন্ট্রিতে নতুন ভুল যুক্ত হওয়ার ঝুঁকি থাকতে পারে। যাইহোক, জন এর উত্তর মত, এই সম্পূর্ণ স্বজ্ঞাত সত্যিকার অর্থে অন-পলিসি অ্যালগরিদমগুলিতে প্রযোজ্য হবে, তাই এটি এখনও বিশেষ কী তা ব্যাখ্যা করে নাQবিদ্যুতায়ন (এবং অন্যান্য অফ-পলিসি পদ্ধতি)।
এই বিষয়ে একটি খুব আকর্ষণীয় সাম্প্রতিক কাগজ হ'ল অ-বিভ্রান্তিকর কিউ-লার্নিং এবং মান আইট্রেশন । তারা অ্যালগরিদমে "বিভ্রান্তিকর পক্ষপাতিত্ব" এর একটি সমস্যা নির্দেশ করে যা একটি সম্পর্কিত জড়িত আপডেটের নিয়মের সাথে ফাংশন সান্নিধ্যকে একত্রিত করেmax অপারেটর, যেমন কিউ-লার্নিং (এটি সম্ভবত এর পক্ষে অনন্য নয় max অপারেটর, তবে সম্ভবত অফ-পলিসিতে সাধারণভাবে প্রযোজ্য?)।
নিম্নরূপ সমস্যা হয়। ধরুন আমরা এটি চালাইQস্টেট-অ্যাকশন জুটির জন্য হালনাগাদ আপডেট (s,a):
Q(s,a)←Q(s,a)+α[maxa′Q(s′,a′)−Q(s,a)].
মান অনুমান maxa′Q(s′,a′) এখানে ব্যবহৃত অনুমানের উপর ভিত্তি করে আমরা আমাদের পুরানো সংস্করণগুলির প্রতি সম্মানযুক্ত লোভী এমন একটি নীতি কার্যকর করি Qএকটি উপর সম্ভবত অনুমান - সম্ভবত খুব দীর্ঘ - ট্র্যাজেক্টরি। পূর্ববর্তী কয়েকটি উত্তরে যেমন ইতিমধ্যে আলোচনা করা হয়েছে, আমাদের ফাংশন আনুমানিকর একটি সীমিত উপস্থাপনা ক্ষমতা রয়েছে এবং এক রাজ্য-অ্যাকশন জুটির আপডেটগুলি অন্য রাজ্য-কর্ম যুগলগুলির জন্য মূল্য অনুমানকে প্রভাবিত করতে পারে। এটির অর্থ আমাদের আপডেটটি ট্রিগার করার পরেপ্রশ্ন ( গুলি , ক ), আমাদের ফাংশন approximator আর একযোগে নীতি প্রকাশ করতে সক্ষম হতে পারে যে উচ্চ আয় বাড়ে আমাদেরসর্বোচ্চএকটি'প্রশ্ন (গুলি',একটি')অনুমান উপর ভিত্তি করে ছিল । এই কাগজের লেখকরা বলেছেন যে অ্যালগরিদমটি "বিভ্রান্তিকর"। এটি এই ধারণার অধীনে একটি আপডেট সম্পাদন করে যে, লাইনটি নিচে, এটি এখনও বড় আয় করতে পারে, তবে এটি ফাংশন আনুমানিকের পরামিতিগুলির নতুন সংস্করণ সহ সেই রিটার্নগুলি পাওয়ার পক্ষে আর শক্তিশালী হতে পারে না।
অবশেষে, আমি সন্দেহ করি যে আরও একটি (আরও সাম্প্রতিক) কাগজ এই প্রশ্নের সাথে প্রাসঙ্গিক , ডিপ কিউ-লার্নিং অ্যালগরিদমগুলিতে ডায়াগনস বোতলেনিকস , তবে দুর্ভাগ্যক্রমে আমার এখনও এটি পর্যাপ্ত বিবরণে পড়ার এবং পর্যাপ্তরূপে সংক্ষিপ্তসার করার সময় হয়নি।