ছুটি-এক-আউট ক্রস-বৈধকরণের উচ্চ প্রকরণ


15

আমি বারবার পড়েছি যে "লেভ-ওয়ান-আউট" ক্রস-বৈধকরণের প্রশিক্ষণের ভাঁজগুলির বৃহত ওভারল্যাপের কারণে উচ্চ বৈচিত্র রয়েছে। তবে আমি বুঝতে পারি না কেন এটি: প্রশিক্ষণ সেটগুলি প্রায় অভিন্ন হওয়ার কারণে ক্রস-বৈধকরণের পারফরম্যান্সটি খুব স্থিতিশীল (কম বৈকল্পিক) হওয়া উচিত নয়? বা আমার কী পুরোপুরি "বৈকল্পিক" ধারণাটি সম্পর্কে ভুল ধারণা রয়েছে?

আমিও সম্পূর্ণরূপে বুঝতে পারি না কীভাবে এলইউ নিরপেক্ষ হতে পারে তবে উচ্চতর বৈকল্পিকতা থাকতে পারে? যদি এলইও অনুমানটি প্রত্যাশায় সত্য অনুমানক মানের সমান হয় - তবে কীভাবে এটির উচ্চতর বৈকল্পিকতা থাকতে পারে?

দ্রষ্টব্য: আমি জানি যে এখানে একটি অনুরূপ প্রশ্ন রয়েছে: ত্রুটি উচ্চতর হওয়ার গড় গড় অনুমান সম্পর্কে কেন ছুটি-ওয়ান-আউট ক্রস-বৈধকরণ (এলইউসিভি) বৈকল্পিক? তবে যে ব্যক্তি উত্তর দিয়েছে সে মন্তব্যগুলিতে পরে বলেছে যে উর্ধ্বে থাকা সত্ত্বেও সে বুঝতে পেরেছে যে তার উত্তরটি ভুল is


2
আমি সেই ব্যক্তি :-) তবে দয়া করে মনে রাখবেন যে, প্রথম থেকেই আমি কিছুক্ষণ আগে বিভ্রান্তি দূর করতে আমার উত্তর আপডেট করেছি এবং দ্বিতীয়ত, পুরো থ্রেডটি অন্য থ্রেডের নকল হিসাবে বন্ধ করা হয়েছে: stats.stackexchange.com/ প্রশ্ন / 61783 । আপনি কি সেখানে তাকান? আপনার প্রশ্নটিও আমার এটির একটি সদৃশ বলে মনে হচ্ছে। যদি আপনি সেখানে দেওয়া উত্তরে অসন্তুষ্ট হন, তবে আপনার প্রশ্নটি আরও সুনির্দিষ্টভাবে গঠনের বিষয়ে বিবেচনা করুন। এই মুহুর্তে আমি বন্ধ করে ভোট দেব, তবে আপনার প্রশ্নটি সম্পাদন করতে নির্দ্বিধায়
অ্যামিবা


3
ওয়েল, এটি সহজ: একটি পরামিতিটির আসল মান । একটি মূল্নির্ধারক যে উৎপাদনের 0.49 , 0.51 , 0.49 , 0.51 ... পক্ষপাতিত্বহীন এবং অপেক্ষাকৃত কম ভ্যারিয়েন্স আছে, কিন্তু একটি মূল্নির্ধারক যে উৎপাদনের 0.1 , 0.9 , 0.1 , 0.9 ... এছাড়াও পক্ষপাতিত্বহীন কিন্তু অনেক বেশী ভ্যারিয়েন্স হয়েছে। 0.50.49,0.51,0.49,0.51...0.1,0.9,0.1,0.9...
অ্যামিবা বলেছেন

5
আপনার প্রথম অনুচ্ছেদ সম্পর্কে: আপনাকে পুরো ডেটাসেটের বিভিন্ন উপলব্ধির মধ্যে বৈচিত্র সম্পর্কে চিন্তা করতে হবে । প্রদত্ত ডেটাসেটের জন্য, এলইউসিভি সত্যই প্রতিটি বিভাজনের জন্য খুব অনুরূপ মডেল তৈরি করবে কারণ প্রশিক্ষণ সেটগুলি এতটা ছেদ করছে (যেমন আপনি বলেছিলেন), তবে এই মডেলগুলি সব মিলিয়ে সত্য মডেল থেকে অনেক দূরে থাকতে পারে ; ডেটাসেট জুড়ে, তারা বিভিন্ন দিক থেকে দূরে থাকবে, অতএব উচ্চতর বৈকল্পিক। আমি এটিই গুণগতভাবে বুঝতে পারি।
অ্যামিবা বলেছেন

2
@ আমেবা, কেন এই মন্তব্যগুলিকে সরকারী উত্তরে পরিণত করবেন না?
গুং - মনিকা পুনরায়

উত্তর:


10

এই প্রশ্নটি সম্ভবত বৈকল্পিকের সদৃশ এবং ক্রস বৈধকরণের পক্ষপাতিত্ব হিসাবে বন্ধ হয়ে যেতে চলেছে : কেন ছুটি-এক-আউট সিভি উচ্চতর বৈকল্পিকতা রাখে? , তবে এটি হওয়ার আগে আমি মনে করি আমি আমার মন্তব্যগুলিকে উত্তরে পরিণত করব।

আমিও সম্পূর্ণরূপে বুঝতে পারি না কীভাবে এলইউ নিরপেক্ষ হতে পারে তবে উচ্চতর বৈকল্পিকতা থাকতে পারে?

0.50.49,0.51,0.49,0.51...0.1,0.9,0.1,0.9...

প্রশিক্ষণ সেটগুলি প্রায় অভিন্ন হওয়ার কারণে ক্রস-বৈধকরণের পারফরম্যান্সটি খুব স্থিতিশীল (কম বৈকল্পিক) হওয়া উচিত নয়?

পুরো ডেটাসেটের বিভিন্ন উপলব্ধির জন্য আপনাকে বৈকল্পিক সম্পর্কে চিন্তা করতে হবে। প্রদত্ত ডেটাসেটের জন্য, লেভ-ওয়ান-আউট ক্রস-বৈধকরণ প্রতিটি বিভাজনের জন্য খুব একই ধরণের মডেল তৈরি করবে কারণ প্রশিক্ষণ সেটগুলি এতগুলি ছেদ করছে (তবে আপনি সঠিকভাবে লক্ষ্য করেছেন), তবে এই মডেলগুলি সব মিলিয়ে সত্য মডেল থেকে অনেক দূরে থাকতে পারে; ডেটাসেট জুড়ে, তারা বিভিন্ন দিক থেকে দূরে থাকবে, অতএব উচ্চ বৈকল্পিক।

অন্তত আমি এটি বুঝতে পারি। আরও আলোচনার জন্য লিঙ্কযুক্ত থ্রেড এবং আরও আলোচনার জন্য রেফারেন্সড পেপারগুলি দেখুন।


2
সুতরাং, যেমনটি আমি এটি বুঝতে পারি, নিম্ন পক্ষপাত দেওয়া হয় কারণ প্রশিক্ষণ সেটটি খুব বড় - পুরো ডেটাসেটের সাথে প্রায় একই (যেমন পরীক্ষার জন্য কেবলমাত্র একটি ডেটা নমুনা বাদ যায়)। সুতরাং, একটি নির্দিষ্ট ডেটাসেটের জন্য আমরা খুব ভাল অনুমান আশা করতে পারি। যাইহোক, ভাঁজগুলির এই উচ্চ পারস্পরিক সম্পর্কের কারণে (ক্রোস কোডেশন এটির পুনরাবৃত্তির ক্ষেত্রে অভিন্ন ডেটাতে প্রায় সঞ্চালিত হয়), অনুমানটিও এই নির্দিষ্ট ডেটাসেটের জন্য খুব নির্দিষ্ট, ফলে একই ডায়াল্যাসেটের একই অন্তর্নিহিত বিতরণ থেকে পারফরম্যান্সের মধ্যে উচ্চ পার্থক্য দেখা যায় । সঠিক?
পগল 21

2
আমি মনে করি এটি বেশিরভাগ ক্ষেত্রেই সঠিক, তবে একথাটি সতর্কতার সাথে বলা উচিত for one particular dataset we can expect a very good estimation। আমি অনুমান করি যে এটির অর্থ এটি ব্যাখ্যা করা যায় যে কিছু ডেটাসেট-নির্দিষ্ট পরামিতির অনুমানটি ভাল হবে। তবে সাধারণভাবে ক্রস-বৈধকরণের একটি জনসংখ্যার প্যারামিটার অনুমান করা হয়: একটি নির্দিষ্ট ধরণের মডেল জনসংখ্যার নির্ভরশীল পরিবর্তনশীল সম্পর্কে কতটা ভবিষ্যদ্বাণী করতে পারে; আপনি LOCV দ্বারা এটির খুব ভাল অনুমানের আশা করতে পারি না , কারণ আপনি যা লিখেছেন (অনুমানটি এটি very specific for this particular dataset)।
অ্যামিবা বলেছেন

1
আমার একটি সতর্কবাণী যুক্ত করা উচিত যা সমস্তই আমার বর্তমান বোঝাপড়া, তবে সাধারণভাবে আমি এই বিষয়টিকে বেশ জটিল বলে মনে করি এবং ক্রস-বৈধকরণের সাথে আমার অভিজ্ঞতা সীমাবদ্ধ। আমি বিশেষজ্ঞ নই।
অ্যামিবা বলেছেন

1
আমি জিজ্ঞাসা করতে পারি যে আপনি এটি কেন জটিল মনে করেন? আমি কৌতূহলী যেহেতু এটি আমাকে যখন সিভি আসে তখন কোথায় সতর্কতা অবলম্বন করা উচিত বা আমার জ্ঞান আরও গভীর করার বিষয়ে কিছু শিখতে পারে
Pugl

2
এই থ্রেডে গৃহীত উত্তর দেওয়া , সম্ভবত এই উত্তরটিতে আপনাকে এখন আর এলইউসিভির উচ্চতর প্রকারের উল্লেখ করার দরকার নেই, সুতরাং উচ্চতর বৈকল্পিক ? আমি এই প্রশ্নগুলির জন্য কিছুক্ষণ ভেবেছি এবং অবিচ্ছিন্ন ("ধারাবাহিক"?) রিগ্রেশন সমস্যাগুলিতে এলইউসিভি-র উচ্চতর পরিবর্তনের কোনও তাত্ত্বিক কারণ নিয়ে আসতে পারি নি, যদিও আমি লিওসিভি ব্যর্থ লিঙ্কযুক্ত থ্রেডের মন্তব্যে পলের বক্তব্যটি দেখতে পাচ্ছি যদি আপনার নমুনায় প্রতিটি পয়েন্টের নকল থাকে।
রিচার্ড হার্ডি

1

এই উচ্চতর বৈকল্পিকতা প্রশিক্ষণের সেটগুলির স্থানের সাথে সম্মানজনক। এখানেই এলইউসিভি-র উচ্চ বৈকল্পিকতা রয়েছে: এলইউসিভিতে আমরা প্রতিটি পর্যবেক্ষণের জন্য পূর্বাভাস ত্রুটি পাই, পর্যবেক্ষণটি বলি, এই পর্যবেক্ষণটি বাদে পুরো পর্যবেক্ষণের ডেটাসেটটি হাতে রেখে ব্যবহার করি। সুতরাং, আমার জন্য পূর্বাভাসের মানটি বর্তমান ডেটাসেটের উপর খুব নির্ভরশীল। এখন ধরে নিই আমরা অন্য একটি স্বাধীন ডেটাসেট পর্যবেক্ষণ করি এবং এই নতুন ডেটাসেটে একটি মডেল ফিট করি। যদি আমরা এই নতুন মডেলটি পর্যবেক্ষণের জন্য পূর্বাভাসের মান পেতে ব্যবহার করি তবে পূর্বাভাসকৃত মানটি এলওইউসিভি দ্বারা মূল্যায়নের তুলনায় (সম্ভবত গড় (নিরপেক্ষ)) সঠিক থেকে পৃথক)

এটি এলইউসিভিতে ত্রুটি পূর্বাভাসের উচ্চতর পরিবর্তনের পিছনে অন্তর্দৃষ্টি।

তবে, যদি আপনি বিভিন্ন হাইপারপ্যারামিটারগুলির সাথে কোনও মডেলের ফলাফলগুলির তুলনা করতে LOOCV ব্যবহার করেন তবে আমার বিশ্বাস আপনি ভবিষ্যদ্বাণী ত্রুটির প্রাক্কলন করতে নিরাপদে LOOCV ব্যবহার করতে পারেন, তবে শর্ত থাকে যে ভবিষ্যদ্বাণী ত্রুটির সত্যিকারের মানটি আপনার আগ্রহের নয়, অর্থাৎ আপনি কেবল চান পর্যবেক্ষণকৃত প্রশিক্ষণ সেট থাকা বিভিন্ন মডেলের তুলনা করুন এবং আপনি প্রকৃত সত্য ত্রুটিটি অনুমান করার বিষয়ে যত্নশীল নন।

এটি বলেছিল, থাম্বের নিয়ম হিসাবে, আপনার যদি একটি ছোট নমুনা থাকে, LOOCV ব্যবহার করুন, অন্যথায়, কে-ফোল্ড সিভি ব্যবহার করুন কে এর জন্য একটি ছোট মান।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.