আমি পুনর্বহাল শেখার বিষয়ে অ্যান্ড্রু এনগের বক্তৃতা নোটগুলি পড়ছিলাম এবং আমি কেন নীতির পুনরাবৃত্তিকে সর্বোত্তম মান ফাংশনে রূপান্তরিত করে তা বোঝার চেষ্টা করছিলাম এবং সর্বোত্তম নীতি ।
পুনরুদ্ধার নীতি পুনরাবৃত্তি হ'ল:
লোভী-অ্যালগোরিদম কেন সর্বোত্তম নীতি এবং সর্বোত্তম মান ফাংশন নিয়ে যায়? (আমি জানি লোভী অ্যালগরিদম সর্বদা গ্যারান্টি দেয় না, বা স্থানীয় অপটিমায় আটকে যেতে পারে, তাই আমি কেবল এটির অ্যালগরিদমের অনুকূলতার জন্য একটি প্রমাণ দেখতে চাই)।
এছাড়াও, আমার কাছে মনে হয় যে নীতি পুনরাবৃত্তি ক্লাস্টারিং বা গ্রেডিয়েন্ট বংশোদ্ভূত হওয়ার মতো কিছু। ক্লাস্টারিংয়ের জন্য, কারণ প্যারামিটারগুলির বর্তমান সেটিংয়ের সাথে আমরা অনুকূলিত। গ্রেডিয়েন্ট বংশোদ্ভূত অনুরূপ কারণ এটি কেবল কিছু মান চয়ন করে যা কিছু ফাংশন বাড়িয়ে তোলে বলে মনে হয়। এই দুটি পদ্ধতি সর্বদা অনুকূল ম্যাক্সিমায় রূপান্তরিত করে না এবং আমি বোঝার চেষ্টা করছিলাম যে এই অ্যালগরিদমটি আমি উল্লিখিত পূর্বেরগুলির চেয়ে কী আলাদা ছিল।
এগুলি এখন পর্যন্ত আমার ধারণা:
বলুন যে আমরা কিছু নীতি দিয়ে শুরু করি , তারপরে প্রথম পদক্ষেপের পরে, সেই স্থির নীতিটির জন্য আমাদের তা রয়েছে:
যেখানে ভি ^ {(1)} হ'ল প্রথম পুনরাবৃত্তির মান ফাংশন। তারপরে দ্বিতীয় ধাপের পরে আমরা কিছু নতুন নীতি বেছে নিই এর মান বাড়াতে । এখন, নতুন নীতি নিয়ে, আমরা যদি অ্যালগরিদমের দ্বিতীয় ধাপটি করি তবে নিম্নলিখিত অসমতাটি সত্য:
কারণ আমরা বেছে নিই পূর্ববর্তী ধাপে মান ফাংশন বাড়ানোর জন্য দ্বিতীয় ধাপে (অর্থাত্ উন্নতি করা । এখনও পর্যন্ত, এটি পরিষ্কার যে নির্বাচন কেবলমাত্র ভি ^ {(1) increase বৃদ্ধি করতে পারে, কারণ আমরা কীভাবে বেছে নেব তা স্থির করে । যাইহোক, আমার বিভ্রান্তি পুনরাবৃত্তি পদক্ষেপে আসে কারণ আমরা একবার পুনরায় পুনরায় গণনা করি কারণ আমরা একবার পুনরাবৃত্তি করি এবং 1 ধাপে ফিরে যাই আমরা আসলে জিনিসগুলিকে পুরোপুরি পরিবর্তন করি we নতুন নীতিমালা জন্য । যা দেয়:
তবে এটি নয়:
যা সমস্যা বলে মনে হচ্ছে কারণ উন্নতির জন্য বেছে নেওয়া হয়েছিল , এবং এই নতুন না । মূলত সমস্যাটি হ'ল উন্নতির গ্যারান্টি দেয় করেছে পরিবর্তে যখন মান ফাংশন হয় । কিন্তু পুনরাবৃত্তি পদক্ষেপে আমরা পরিবর্তন প্রতি , তবে আমি দেখতে পাচ্ছি না যে এটি কীভাবে গ্যারান্টি দেয় যে প্রতিটি পুনরাবৃত্তিতে মান ফাংশন একঘেয়েভাবে উন্নত হয় কারণ কারণ মান ফাংশনটি যখন থাকে তখন মান ফাংশনটি উন্নত করতে গণনা করা হয় তবে 1 ধাপে পরিবর্তন প্রতি (যা খারাপ কারণ আমি কেবলমাত্র আমাদের পূর্ববর্তী মান ফাংশনটি উন্নত করে)।