মডেল নির্বাচন করতে যেমন ক্রস-বৈধকরণ ব্যবহার করা হয় (যেমন উদাহরণস্বরূপ হাইপারপ্যারামিটার টিউনিং) এবং সেরা মডেলের কর্মক্ষমতা মূল্যায়ন করতে, একজনকে নেস্টেড ক্রস-বৈধকরণ ব্যবহার করা উচিত । বাইরের লুপটি মডেলটির কার্যকারিতা মূল্যায়ন করা এবং অভ্যন্তরীণ লুপটি সেরা মডেলটি নির্বাচন করা হয়; মডেলটি প্রতিটি বাহ্যিক-প্রশিক্ষণ সেটে নির্বাচিত হয় (অভ্যন্তরীণ সিভি লুপ ব্যবহার করে) এবং এর কার্য সম্পাদনটি বাইরের-পরীক্ষামূলক সেটগুলিতে পরিমাপ করা হয়।
এটি অনেকগুলি থ্রেডে আলোচনা করা হয়েছে এবং ব্যাখ্যা করা হয়েছে (যেমন, এখানে ক্রস-বৈধকরণের পরে সম্পূর্ণ ডেটাসেটের সাথে প্রশিক্ষণ দেওয়া ? , @ ডিক্রানমারসুপিয়ালের উত্তর দেখুন) এবং আমার কাছে সম্পূর্ণ পরিষ্কার entire উভয় মডেল নির্বাচন এবং পারফরম্যান্স অনুমানের জন্য কেবল একটি সাধারণ (অহংকারী) ক্রস-বৈধকরণ করা ইতিবাচকভাবে পক্ষপাতিত্বমূলক পারফরম্যান্স অনুমান করতে পারে। @ ডিক্রানমারসুপিয়ালের ঠিক এই বিষয়টি নিয়ে একটি ২০১০ এর কাগজ রয়েছে ( মডেল নির্বাচনের ক্ষেত্রে ওভার-ফিটিং এবং পারফরম্যান্স মূল্যায়ণে পরবর্তী নির্বাচন বায়াস ) সাথে বিভাগ ৪.৩ বলা হচ্ছে মডেল নির্বাচনের ক্ষেত্রে ওভার-ফিটিং কি অনুশীলনের ক্ষেত্রে সত্যিকারের উদ্বেগ? - এবং কাগজটি দেখায় যে উত্তরটি হ্যাঁ।
এই সমস্ত বলা হচ্ছে, আমি এখন মাল্টিভারিয়েট একাধিক রিজ রিগ্রেশন নিয়ে কাজ করছি এবং আমি সাধারণ এবং নেস্টেড সিভির মধ্যে কোনও পার্থক্য দেখতে পাচ্ছি না, এবং এই বিশেষ ক্ষেত্রে নেস্টেড সিভি একটি অপ্রয়োজনীয় গণনার বোঝার মতো দেখাচ্ছে। আমার প্রশ্ন: সাধারণ সিভি কোন অবস্থার অধীনে নেস্টেড সিভি দিয়ে এড়ানো যায় এমন লক্ষণীয় পক্ষপাত অর্জন করবে? নেস্টেড সিভি কখন অনুশীলনে বিবেচনা করে এবং কখন তা এতটা গুরুত্ব দেয় না? থাম্বের কোনও নিয়ম আছে?
আমার আসল ডেটাসেট ব্যবহার করে এখানে একটি চিত্রণ দেওয়া হল। অনুভূমিক অক্ষটি হ'ল রিজ রিগ্রেশন for । উল্লম্ব অক্ষ ক্রস-বৈধতা ত্রুটি। নীল রেখাটি 50 টি এলোমেলো 90:10 প্রশিক্ষণ / পরীক্ষার বিভাজন সহ সাধারণ (অহংকারী) ক্রস-বৈধতার সাথে মিলে যায় s লাল রেখাটি 50 টি এলোমেলো 90:10 প্রশিক্ষণ / পরীক্ষা বিভাজন সহ নেস্টেড ক্রস-বৈধতার সাথে সম্পর্কিত, যেখানে একটি অভ্যন্তরীণ ক্রস-বৈধকরণ লুপ (এছাড়াও 50 এলোমেলো 90:10 বিভক্ত) দ্বারা নির্বাচিত হয়। রেখার অর্থ 50 টিরও বেশি এলোমেলো বিভাজন, শেডগুলি স্ট্যান্ডার্ড বিচ্যুতি প্রদর্শন করে ।λ ± 1
লাল রেখাটি সমতল কারণ অভ্যন্তরীণ লুপে নির্বাচিত হচ্ছে এবং বহিরাগত লুপের পারফরম্যান্সটি পুরো পরিসীমা জুড়ে পরিমাপ করা হয় না । যদি সাধারণ ক্রস-বৈধকরণ পক্ষপাতযুক্ত হয় তবে নীল বক্ররেখা সর্বনিম্ন লাল রেখার নীচে। তবে এই ঘটনাটি নয়।λ
হালনাগাদ
এটা আসলে হয় কেস :-) এটা ঠিক যে পার্থক্য অতি ক্ষুদ্র হয়। এখানে জুম-ইন:
এখানে একটি সম্ভাব্য বিভ্রান্তিকর জিনিসটি হ'ল আমার ত্রুটি বারগুলি (ছায়াগুলি) বিশাল, তবে নেস্টেড এবং সাধারণ সিভিগুলি একই প্রশিক্ষণ / পরীক্ষার বিভাজন নিয়ে পরিচালিত হতে পারে (এবং ছিল)। সুতরাং তাদের মধ্যে তুলনাটি জুটিবদ্ধ হয়েছে , যেমন মন্তব্যগুলিতে @ ডিক্রান ইঙ্গিত করেছেন। সুতরাং আসুন নেস্টেড সিভি ত্রুটি এবং সাধারণ সিভি ত্রুটির মধ্যে পার্থক্য নেওয়া যাক ( যা আমার নীল বক্ররেখার সর্বনিম্নের সাথে মিলে যায়); আবার, প্রতিটি ভাঁজগুলিতে, এই দুটি ত্রুটি একই পরীক্ষার সেটটিতে গণনা করা হয়। প্রশিক্ষণ / পরীক্ষা বিভাজন জুড়ে এই পার্থক্যটি চিহ্নিত করে আমি নিম্নলিখিতটি পেয়েছি:50
জেরোস বিভাজনের সাথে সামঞ্জস্য করে যেখানে অভ্যন্তরীণ সিভি (এটি প্রায় অর্ধেক বার হয়)। গড়ে, পার্থক্যটি ইতিবাচক হতে থাকে, যেমন নেস্টেড সিভিতে কিছুটা বেশি ত্রুটি রয়েছে। অন্য কথায়, সরল সিভি একটি বিয়োগফল দেখায়, তবে আশাবাদী পক্ষপাতিত্ব।
(আমি পুরো পদ্ধতিটি কয়েকবার চালিয়েছি এবং প্রতিবার এটি ঘটে happens)
আমার প্রশ্ন হ'ল আমরা কোন অবস্থার অধীনে এই পক্ষপাতটিকে সংক্ষিপ্ত বলে আশা করতে পারি, এবং কোন অবস্থার অধীনে আমাদের হওয়া উচিত নয়?