মডেল নির্বাচন এবং ক্রস বৈধকরণের বিষয়টিতে ক্রসভিলেটেডে অসংখ্য থ্রেড রয়েছে। এখানে কয়েকটি দেওয়া হল:
- অভ্যন্তরীণ বনাম বাহ্যিক ক্রস-বৈধকরণ এবং মডেল নির্বাচন
- বৈশিষ্ট্য নির্বাচন এবং ক্রস-বৈধকরণের জন্য ডিক্রানমারসুপিয়ালের শীর্ষ উত্তর
তবে, এই থ্রেডগুলির উত্তরগুলি মোটামুটি জেনেরিক এবং বেশিরভাগ ক্ষেত্রে বৈধতা এবং মডেল নির্বাচনের ক্রস করার জন্য বিশেষ পদ্ধতির সাথে বিষয়গুলি হাইলাইট করে।
জিনিসগুলিকে যথাসম্ভব কংক্রিট করার জন্য , উদাহরণস্বরূপ বলুন যে আমরা একটি আরবিএফ কার্নেল দিয়ে একটি এসভিএম নিয়ে কাজ করছি: , এবং আমার কাছেএক্সএবং লেবেলyবৈশিষ্ট্যগুলির একটি ডেটাসেট রয়েছেএবং আমি এটি করতে চাই
- আমার মডেলের সর্বোত্তম সম্ভাব্য মানগুলি ( এবং সি ) সন্ধান করুন
- আমার ডেটাসেট দিয়ে এসভিএমকে প্রশিক্ষণ দিন (চূড়ান্ত স্থাপনার জন্য)
- সাধারণীকরণ ত্রুটি এবং এই ত্রুটির চারপাশে অনিশ্চয়তা (বৈকল্পিক) অনুমান করুন
এটা করার জন্য, আমি ব্যক্তিগতভাবে, একটি গ্রিড অনুসন্ধান উদাঃ আমি সম্ভব সমন্বয় চেষ্টা করবে এবং γ । সরলতার জন্য, আমরা নিম্নলিখিত রেঞ্জগুলি ধরে নিতে পারি:
আরও নির্দিষ্টভাবে, আমার সম্পূর্ণ ডেটাসেট ব্যবহার করে আমি নিম্নলিখিতটি করি:
- প্রত্যেক (জন্য , γ ) যুগল, আমি পুনরাবৃত্তি না পুনরাবৃত্তিও (যেমন 100 র্যান্ডম পুনরাবৃত্তির) কে ক্রস বৈধতা ধা (যেমন কে = 10 ), আমার ডেটা সেটটি, অর্থাত্ আমি আমার SVM ট্রেনে কে - 1 ভাঁজ এবং ত্রুটি নির্ণয় সমস্ত কে ভাঁজ দিয়ে পুনরাবৃত্তি করে বামদিকে on সামগ্রিকভাবে, আমি 100 x 10 = 1000 পরীক্ষার ত্রুটিগুলি সংগ্রহ করি।
- এই জাতীয় প্রতিটি ( , γ ) জুটির জন্য, আমি সেই 1000 টি পরীক্ষার ত্রুটির μ এম , σ এম এর গড় এবং তারতম্যটি গণনা করি ।
এখন আমি সেরা মডেল (সেরা কর্নেল প্যারামিটার) বেছে নিতে চাই যা আমি আমার চূড়ান্ত এসভিএমকে পুরো ডেটাसेटে প্রশিক্ষণ দিতে ব্যবহার করব। আমার বোধগম্যতা হল সবচেয়ে কম ত্রুটিযুক্ত মডেলটি বেছে নেওয়ার অর্থ এবং বৈকল্পিক এবং σ এম ডান পছন্দ হবে, এবং যে এই মডেলের হয় σ এম মডেলের সাধারণীকরণ ত্রুটি পক্ষপাত এবং ভ্যারিয়েন্সের আমার সবচেয়ে ভালো অনুমান যখন সঙ্গে প্রশিক্ষণ হয় সম্পূর্ণ ডেটাসেট।
কিন্তু, উপরের থ্রেডগুলিতে উত্তরগুলি পড়ার পরে, আমি এই ধারণাটি পেয়ে যাচ্ছি যে মোতায়েনের জন্য এবং / অথবা এর ত্রুটি (সাধারণীকরণের পারফরম্যান্স) নির্ধারণের জন্য সেরা এসভিএম বাছাই করার জন্য এই পদ্ধতিটি ত্রুটিযুক্ত এবং আরও ভাল উপায়গুলি বেছে নেওয়ার উপায় রয়েছে সেরা এসভিএম এবং এর ত্রুটিটি প্রতিবেদন করা। যদি তাই হয়, তারা কি? আমি একটি সুনির্দিষ্ট উত্তর খুঁজছি দয়া করে।
এই সমস্যাটির সাথে যুক্ত, আমি কীভাবে বিশেষত সেরা মডেলটি বেছে নিতে পারি এবং এর সাধারণীকরণের ত্রুটিটি সঠিকভাবে অনুমান করতে পারি ?