দুর্দান্ত প্রশ্ন। আমি সাহিত্যে প্রচুর থামার নিয়মগুলি দেখেছি এবং প্রসঙ্গে উপর নির্ভর করে প্রত্যেকের বিভিন্ন সুবিধা এবং অসুবিধাগুলি রয়েছে। optim
উদাহরণস্বরূপ, আর- এ ফাংশনটির কমপক্ষে তিনটি পৃথক স্টপিং বিধি রয়েছে:
maxit
, অর্থাত্ পূর্ব নির্ধারিত সর্বাধিক সংখ্যা rations আর একটি অনুরূপ বিকল্প আমি সাহিত্যে দেখেছি সময় নির্ধারণের আগে সেকেন্ডের একটি সংখ্যা of আপনার যা দরকার তা যদি একটি আনুমানিক সমাধান হয় তবে এটি খুব যুক্তিসঙ্গত হতে পারে। আসলে, এখানে মডেলগুলির (বিশেষত রৈখিক মডেল) ক্লাস রয়েছে যার জন্য প্রথম দিকে থামানো আপনার প্যারামিটারের মানগুলির আগে গাউসিয়ান রাখার সমান। একজন ঘনঘনবাদী বলতেন আপনার পূর্বের পরিবর্তে "এল 2 আদর্শ" রয়েছে তবে তারা এটি করার পক্ষে যুক্তিসঙ্গত জিনিস হিসাবেও ভাবেন। আমি কেবল এই কাগজটি স্কাইম করেছি , তবে এটি তাড়াতাড়ি থামানো এবং নিয়মিতকরণের মধ্যে সম্পর্কের কথা বলে এবং আপনাকে আরও তথ্যের দিকে নির্দেশ করতে পারে might তবে সংক্ষিপ্ত সংস্করণটি হ্যাঁ, আপনি যা করছেন তার উপর নির্ভর করে তাড়াতাড়ি থামানো একটি উপযুক্ত সম্মানজনক জিনিস হতে পারে
abstol
, অর্থাত্, ফাংশনটি "যথেষ্ট কাছে" শূন্যের হয়ে গেলে থামুন। এটি আপনার পক্ষে প্রাসঙ্গিক নাও হতে পারে (এটি আপনি শূন্যের আশা করছেন বলে মনে হচ্ছে না), তাই আমি এড়িয়ে যাব।
reltol
, যা আপনার দ্বিতীয় পরামর্শের মতো - যখন উন্নতি একটি প্রান্তিকের নীচে নেমে যায় তখন থামুন। আমি আসলে এটিতে কতটা তত্ত্ব আছে তা জানি না, তবে আপনি সম্ভবত সর্বনিম্ন সংখ্যার পুনরাবৃত্তির চেয়ে কম মিনিমা পাবেন। যদি এটি আপনার কাছে গুরুত্বপূর্ণ, তবে এটি আরও পুনরাবৃত্তির জন্য কোড চালানো উপযুক্ত।
নিয়ম বন্ধ করার অন্য একটি পরিবারকে প্রশিক্ষণের ডেটা না করে বৈধতা ডেটা সেট (বা ক্রস-বৈধকরণ সহ) ব্যয় কার্যকারিতাটি অনুকূল করতে হবে। আপনি কীসের জন্য আপনার মডেলটি ব্যবহার করতে চান তার উপর নির্ভর করে আপনার প্রশিক্ষণের ডেটাতে স্থানীয় সর্বনিম্নে পৌঁছানোর আগে আপনি ভালভাবে থামতে চাইতে পারেন, কারণ এটি অত্যধিক মানসিকতার সাথে জড়িত থাকতে পারে। আমি নিশ্চিত যে ট্রেভর হাসিটি এটি করার ভাল উপায় সম্পর্কে লিখেছেন, তবে আমি উদ্ধৃতিটি মনে করতে পারি না।
যুক্তিসঙ্গত পরিমাণে কম মিনিমা সন্ধানের অন্যান্য সম্ভাব্য বিকল্পগুলির মধ্যে অন্তর্ভুক্ত থাকতে পারে:
স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত, যার জন্য আপনার ডেটার ক্ষুদ্র অংশের জন্য গ্রেডিয়েন্টগুলি একবারে অনুমান করা প্রয়োজন (উদাহরণস্বরূপ "খাঁটি" এসজিডি বা একটি ছোট মিনি-ব্যাচগুলির জন্য একটি ডেটা পয়েন্ট)।
আরও উন্নততর অপ্টিমাইজেশান ফাংশন (যেমন নিউটন-ধরণের পদ্ধতি বা কনজুগেট গ্রেডিয়েন্ট), যা আপনাকে আরও ভাল দিক নির্দেশ করতে এবং উতরাইয়ের পথে আপনি আরও ভাল পদক্ষেপ গ্রহণের জন্য আরও ভাল পদক্ষেপের আকার নিতে সহায়তা করতে আপনার উদ্দেশ্য ফাংশনের বক্রতা সম্পর্কে তথ্য ব্যবহার করেন।
আপনার আপডেটের নিয়মে একটি "গতিশীল" শব্দ, যাতে আপনার অপটিমাইজার আপনার উদ্দেশ্যমূলক কার্যক্রমে গিরিখাত প্রাচীরকে আবদ্ধ করার পরিবর্তে উতরাইয়ের দিকে ঘোরানোর আরও ভাল কাজ করে।
আমি অনলাইনে পাওয়া এই বক্তৃতা নোটগুলিতে এই পদ্ধতির সমস্ত আলোচনা করা হয়েছে ।
আশাকরি এটা সাহায্য করবে!
ওহ সম্পাদনা করুন এবং আপনি আরও ভাল মানের মান পেতে চেষ্টা করতে পারেন (উদাহরণস্বরূপ সমস্যার একটি সহজ সংস্করণ সমাধান করে) যাতে আপনার "উষ্ণ শুরু" থেকে সর্বোত্তমের কাছাকাছি যেতে কম পুনরাবৃত্তি লাগে।