আমি ভাবলাম যে বিভিন্ন মেশিন লার্নিং কৌশলগুলির জন্য সেরা টিউনিং পরামিতিগুলি সন্ধানের জন্য ক্রস-বৈধতা ব্যবহার করা ডেটা স্নোপিংয়ের থেকে পৃথক কিনা?
আপনার উদ্বেগ সঠিক জায়গায়, এবং এই বিষয়টিতে একটি সম্পূর্ণ প্রচুর সাহিত্য রয়েছে eg
- কাওলি, জিসি ও টালবট, এনএলসি: মডেল নির্বাচনের ওভার-ফিটিং এবং পারফরম্যান্স মূল্যায়নের পরবর্তী নির্বাচন বায়াস, মেশিন লার্নিং রিসার্চ জার্নাল, ১১, ২০ 11৯-২০-2 (২০১০) 2010
- বুলেস্টিক্স, এ-এল: বায়োইনফরম্যাটিক্স গবেষণায় ওভার-আশাবাদ।, বায়োইনফরম্যাটিকস, 26, 437-439 (2010)। ডিওআই: 10.1093 / বায়োইনফরম্যাটিকস / বিটিপি 648
- জেলিজার, এম ;; গুইলমোট, ভি .; টেনেনহাউস, এ .; স্ট্রিমার, কে। এবং বোলেস্টিক্স, এ-এল: বায়োইনফরম্যাটিকসে ওভার-আশাবাদ: একটি চিত্র।, বায়োইনফরম্যাটিকস, 26, 1990-1998 (2010)। ডিওআই: 10.1093 / বায়োইনফরম্যাটিকস / বিটিকিউ 2323
সমস্যাটি হ'ল ক্রস বৈধকরণের সাথে হাইপারপ্যারামিটার টিউনিং একটি ডেটা-চালিত অপ্টিমাইজেশন প্রক্রিয়া এবং এখনও ইওর ডেটা সেট (পুনরায় প্রতিষ্ঠানের ত্রুটির মাধ্যমে সুর তুলনায় কম, তবে তবুও) বেশি উপভোগ করবে। টিউনিং ক্রস বৈধকরণের ফলাফলগুলিকে "স্বতন্ত্র" পারফরম্যান্স পরিমাপ হিসাবে ব্যবহার করার চেষ্টা করা এইভাবে পাই (= টিউনিং) খাওয়া এবং এটি (= চূড়ান্ত মডেল কর্মক্ষমতা পরিমাপ) রাখার মতো।
এর অর্থ এই নয় যে হাইপারপ্যারামিটার টিউনিংয়ের জন্য আপনার ক্রস-বৈধতা ব্যবহার করা উচিত নয়। এর অর্থ হ'ল আপনি এটি কেবল একটি উদ্দেশ্যে ব্যবহার করতে পারবেন। বৈধতার জন্য মডেল পারফরম্যান্সটিকে অনুকূলিত করুন বা পরিমাপ করুন।
সমাধানটি হ'ল সুরযুক্ত হাইপারপ্যারামিটারগুলির সাথে প্রাপ্ত মডেলের গুণমানটি পরিমাপ করার জন্য আপনাকে একটি স্বাধীন বৈধতা করতে হবে। একে নেস্টেড বা ডাবল ভ্যালিডেশন বলা হয়। আপনি এই বিষয়গুলিতে এখানে বেশ কয়েকটি প্রশ্ন এবং উত্তর পাবেন
ধারণামূলকভাবে, আমি বলতে চাই যে প্রশিক্ষণে কেবলমাত্র "সাধারণ" মডেল প্যারামিটারগুলিই নয়, তবে হাইপারপ্যারামিটারে (স্বয়ংক্রিয়-সুর) ফিট করার জন্য সমস্ত ধরণের অভিনব পদক্ষেপ অন্তর্ভুক্ত রয়েছে। সুতরাং data এর ডেটা-চালিত অপ্টিমাইজেশন স্পষ্টভাবে মডেল প্রশিক্ষণের অংশ।
থাম্বের একটি নিয়ম হিসাবে আপনি এটিও বলতে পারেন যে মডেল প্রশিক্ষণ হ'ল এমন সব কিছু যা আপনার আগে ব্যবহারের জন্য প্রস্তুত চূড়ান্ত ব্ল্যাক-বাক্স ফাংশন যা নতুন ক্ষেত্রে ক্ষেত্রে ভবিষ্যদ্বাণী তৈরি করতে সক্ষম done
পিএস: আমি টেস্টিং বনাম বৈধকরণের পরিভাষাটি খুব বিভ্রান্তিকর বলে মনে করি কারণ আমার ক্ষেত্রে "বৈধতা" অর্থ চূড়ান্ত মডেলটি উপযুক্ত জন্য উপযুক্ত তা প্রমাণ করে এবং তাই অন্যরা যাচাইয়ের চেয়ে পরীক্ষাকে কল বলে। আমি অভ্যন্তরীণ পরীক্ষা সেটটিকে "টিউনিং টেস্ট সেট" এবং বাইরের "চূড়ান্ত বৈধতা পরীক্ষা সেট" বা এর মতো পছন্দ করতে পছন্দ করি।
হালনাগাদ:
সুতরাং যদি আমার মডেল (এই ক্ষেত্রে আমার টিউনিং প্যারামিটার) বাহ্যিক বৈধতা ব্যর্থ হয়, তবে আমার তখন কী করা উচিত?
সাধারণত, এটি কিছুই হয় না যা কেবল ঘটে: কিছু সাধারণ পরিস্থিতি রয়েছে যা এই জাতীয় ব্যর্থতার কারণ হতে পারে। এবং এই জাতীয় পরিস্থিতি সম্পর্কে আমি সচেতন সেগুলি হ'ল চূড়ান্ত পরিস্থিতি। আপনার সচেতন হওয়া দরকার যে নিয়মিতকরণ প্রশিক্ষণের ক্ষেত্রে প্রয়োজনীয় সংখ্যাকে হ্রাস করতে সহায়তা করার সময়, ডেটা-চালিত অপ্টিমাইজেশনের জন্য প্রচুর পরিমাণে ডেটা প্রয়োজন।
আমার সুপারিশ:
সাধারণত, আপনার (ইতিমধ্যে) ইতিমধ্যে মোটামুটি প্রত্যাশা থাকতে হবে, উদাহরণস্বরূপ কোন কার্য সম্পাদনযোগ্য হওয়া উচিত, কোন পারফরম্যান্স আপনি সন্দেহজনকভাবে ভাল দেখছেন তা বিবেচনা করবেন। অথবা আপনার কী কর্মক্ষমতা অর্জন করতে হবে এবং একটি বেসলাইন পারফরম্যান্সের চশমা রয়েছে। সে থেকে এবং অ্যাভাইলাব প্রশিক্ষণের ক্ষেত্রে (যে বিভাজন প্রকল্পের জন্য আপনি সিদ্ধান্ত নিয়েছিলেন) সংখ্যাটি অভ্যন্তরীণ (টিউনিং) পরীক্ষার জন্য প্রত্যাশিত অনিশ্চয়তা গণনা করুন। যদি সেই অনিশ্চয়তা নির্দেশ করে যে আপনি অর্থবহ তুলনা করতে সক্ষম হবেন না তবে ডেটা-চালিত অপ্টিমাইজেশন করবেন না।
স্বতঃ-সুরকরণ পদ্ধতি দ্বারা প্রাপ্ত নির্বাচিত λ এবং সর্বোত্তম। এর সাথে প্রাপ্ত পূর্বাভাস উভয়ই স্থিতিশীল রয়েছে তা আপনার পরীক্ষা করা উচিত । যদি আপনার ডেটার বিভিন্ন বিভাজনের ক্ষেত্রে to যদি যুক্তিসঙ্গতভাবে স্থিতিশীল না হয় তবে অপটিমাইজেশন কাজ করে না।
যদি আপনি দেখতে পান যে আপনি হয় ডেটা-চালিত অপ্টিমাইজেশন করতে সক্ষম হবেন না বা এটি সর্বোপরি কার্যকর হয় নি, আপনি নিজের বিশেষজ্ঞ জ্ঞান দ্বারা, যেমন একই ডেটার অভিজ্ঞতা থেকে বেছে নিতে পারেন। বা এই জ্ঞান দ্বারা যে আপনি যদি জানতে পারেন যে অপ্টিমাইজেশন ব্যর্থ হয়েছে, আপনার আরও শক্তিশালী নিয়মিতকরণ দরকার: ব্যর্থতার দিকে পরিচালিত অতিরিক্ত চাপটি খুব জটিল মডেলের দিকে কাজ করে।