তথ্যগুলিতে এলোমেলোতার কারণে ক্রস-বৈধকরণ আপনার পারফরম্যান্স মেট্রিকের বৈচিত্র্য অনুমান করার একটি সরঞ্জাম (এবং সম্ভবত এটি শিখার অ্যালগরিদমে যদি এটি নির্বিচারে না হয়)।
সুতরাং আপনি যদি কেবল একটি বিভাজন ব্যবহার করেন, যেমন ৮০% ট্রেন + ২০% পরীক্ষা এবং এই পারফরম্যান্স থেকে আপনার পারফরম্যান্স মেট্রিকের প্রতিবেদন করুন এই একই প্যারামিটারগুলি ব্যবহার করে আপনার পরীক্ষার পুনরুত্পাদন করার চেষ্টা করা যে কেউ আলাদা পারফরম্যান্সের চিত্র পাবেন (কখনও কখনও খুব বিভিন্ন)। অবশ্যই আপনি একই নির্ভুল বিভাজন সরবরাহ করেন যা অর্থহীন।
আপনার প্রশ্নে ফিরে আসার জন্য আমি মনে করি আপনার কর্মক্ষমতা রিপোর্ট করার জন্য অবশ্যই আপনার অবশ্যই সিভি ব্যবহার করা উচিত (উদাহরণস্বরূপ একটি 10 গুণ সিভি করুন এবং পারফরম্যান্স মেট্রিকের গড় এবং মান বিচ্যুতি সম্পর্কে প্রতিবেদন করুন)। এখন আপনার অ্যালগরিদম টিউন করার জন্য আপনি প্রশিক্ষণের সেট থেকে নমুনাযুক্ত আরও অনেক ছোট বৈধতা সেট ব্যবহার করতে পারেন (এটি নিশ্চিত করুন যে এটি পরীক্ষার সেটটিতে অন্তর্ভুক্ত নয়)।
আপনি যদি আশঙ্কা করেন যে আপনি একটি ছোট সেট ব্যবহার করে সেরা হাইপারপ্যারামিটারগুলি খুঁজে পাবেন না তবে আপনি সম্ভবত ডেটাসেটের বিশদগুলিতে আপনার অ্যালগরিদমকে বেশি মানিয়ে নিচ্ছেন। যদি আপনি কোনও ছোট নমুনা ব্যবহার করে এমন কোনও কনফিগারেশন খুঁজে না পান যা সমস্ত ভাঁজগুলির মধ্যে যুক্তিসঙ্গত কর্মক্ষমতা দেয় তবে সম্ভবত অ্যালগরিদম অনুশীলনে খুব বেশি কার্যকর নয়।
এছাড়াও মনে রাখবেন কিছু অ্যালগরিদম খুব ধীর / কিছু কনফিগারেশনে ভাল স্কেল করে না। এটি ব্যবহারিক মডেল নির্বাচনেরও একটি অংশ।
যেহেতু আপনি এসভিএমগুলি উল্লেখ করেছেন, অবশ্যই গ্রিড অনুসন্ধানের মাধ্যমে অ-লিনিয়ার কার্নেলের জন্য প্যারামিটারগুলি অনুসন্ধান করার সময় বেশিরভাগ বাস্তবায়নগুলি ধীর হবে। গ্রিড অনুসন্ধানে তাত্পর্যপূর্ণ জটিলতা রয়েছে, তাই এটি খুব কম পরামিতি সহ ব্যবহার করুন। এও মনে রাখবেন যে বেশিরভাগ লাইব্রেরিগুলি বুদ্ধিমান ডিফল্ট প্যারামিটার সরবরাহ করে (বা কমপক্ষে আপনি একটি প্যারামিটার সেট করেছেন এবং অন্যগুলি সেট করার জন্য হিউরিস্টিকস রয়েছে)।