কাগজটি যে যুক্তিযুক্ত মনে হচ্ছে তা আমার কাছে অদ্ভুত বলে মনে হচ্ছে।
কাগজ অনুযায়ী, সিভি লক্ষ্য অনুমান হয় , নতুন ডেটা উপর মডেল প্রত্যাশিত ভবিষ্যদ্বাণীপূর্ণ কর্মক্ষমতা, প্রদত্ত যে মডেল পর্যবেক্ষিত ডেটা সেটটি উপর প্রশিক্ষণ নেন এস । আমরা যখন আচার k ধা সিভি, আমরা একটি অনুমান প্রাপ্ত একটি এই সংখ্যা। র্যান্ডম পার্টিশন কারণে এস মধ্যে ট ভাঁজ, এই একটি র্যান্ডম পরিবর্তনশীল একটি ~ চ ( ক ) সঙ্গে গড় μ ট এবং ভ্যারিয়েন্স σ 2 ট । বিপরীতে, এন -টাইম-পুনরাবৃত্তি সিভি একই অর্থের সাথে একটি অনুমান দেয়α2SkA^SkA^∼f(A)μkσ2kn কিন্তু ছোট বৈকল্পিক σ 2 কে / এন ।μkσ2k/n
স্পষ্টতই, । এই পক্ষপাতিত্ব আমাদের গ্রহণ করতে হবে।α2≠μk
তবে, প্রত্যাশিত ত্রুটি ছোট জন্য বড় হতে হবে এন , এবং বৃহত্তম হতে হবে এন = 1 অন্তত সম্পর্কে যুক্তিসংগত অনুমানের অধীনে, চ ( ক ) , যেমন যখন একটি ˙ ~ এন ( μ ট , σ 2 ট / এন ) । অন্য কথায়, পুনরাবৃত্তি সিভি μ কে আরও সুনির্দিষ্ট অনুমান পেতে দেয়E[|α2−A^|2]nn=1f(A)A^∼˙N(μk,σ2k/n)μkএবং এটি একটি ভাল জিনিস কারণ এটি এর আরও সুনির্দিষ্ট অনুমান দেয় ।α2
অতএব, পুনরাবৃত্তি সিভি অ-পুনরাবৃত্ত সিভির চেয়ে কঠোরভাবে আরও সুনির্দিষ্ট।
লেখকরা সে নিয়ে তর্ক করেন না! পরিবর্তে তারা দাবি করে, সিমুলেশনগুলির ভিত্তিতে, এটি that
[সিভি পুনরাবৃত্তি করে] বৈকল্পিকতা হ্রাস করা, অনেক ক্ষেত্রে খুব দরকারী নয় এবং মূলত গণনামূলক সংস্থার অপচয় হয়।
এর অর্থ হ'ল তাদের সিমুলেশনগুলিতে খুব কম ছিল; এবং প্রকৃতপক্ষে, তারা ব্যবহৃত সর্বনিম্ন নমুনার আকারটি 200 ছিল , যা সম্ভবত ছোট σ 2 কে তুলতে যথেষ্ট বড় । (অ-পুনরাবৃত্ত সিভি এবং 30 বার বার পুনরাবৃত্ত সিভি দিয়ে প্রাপ্ত অনুমানের পার্থক্য সর্বদা ছোট)σ2k200σ2k
ক্যাভেট: আত্মবিশ্বাসের ব্যবধান!
লেখকরা অন্য একটি বিষয় তৈরি করছেন তা হ'ল
আত্মবিশ্বাসের অন্তরগুলির প্রতিবেদন [বারবার ক্রস-বৈধকরণে] বিভ্রান্তিকর।
দেখে মনে হচ্ছে তারা সিভি পুনরাবৃত্তি জুড়ে গড়ের জন্য আত্মবিশ্বাসের ব্যবধানগুলি উল্লেখ করছেন। আমি সম্পূর্ণরূপে একমত যে এটি রিপোর্ট করা অর্থহীন জিনিস! যত বেশিবার সিভি পুনরাবৃত্তি হবে, এই সিআই তত ছোট হবে তবে আমাদের অনুমানের এর আশেপাশে কেউ সিআই-তে আগ্রহী নয় ! আমরা আমাদের অনুমান প্রায় সি আই যত্নশীল α 2 ।μkα2
লেখকরা পুনরাবৃত্তি না হওয়া সিভি-র জন্য সিআই-র প্রতিবেদনও করেন এবং এই সিআইগুলি কীভাবে তৈরি করা হয়েছিল তা আমার কাছে পুরোপুরি পরিষ্কার নয়। আমার ধারণা, ভাঁজগুলি জুড়ে এইগুলি সিআইআই । আমি যুক্তি দিয়ে বলব যে এই সিআইগুলিও বেশ অর্থহীন!k
তাদের একটি উদাহরণ দেখুন: adult
এনবি অ্যালগরিদম এবং 200 নমুনা আকারের সাথে ডেটাসেটের যথার্থতা ura তারা বারবার পুনর্বার সিভি সহ .0 72.০%, সিআই (.2২.২6, .৩.74)), -৯.০% (.2 77.২১, ৮০.79৯) সাথে 10 বার বার পুনরাবৃত্তি হওয়া সিভি এবং 30 বার বার পুনরাবৃত্ত সিভি সহ 79.1% (78.07, 80.13) পেয়েছে। এই সিআই এর সমস্ত প্রথমটি সহ অকেজো। এর সেরা অনুমান 79.1%। এটি 200 এর মধ্যে 158 সাফল্যের সাথে সমান। আমি যদি কিছু সিআইকে প্রতিবেদন করতে চাই, তবে এটিই আমি প্রতিবেদন করব।μk
আরও সাধারণ কভেট: সিভির বিভিন্নতা।
আপনি বারবার সিভি লিখেছেন
ক্রস-বৈধকরণের বৈকল্পিকতা হ্রাস করার জন্য একটি জনপ্রিয় কৌশল হয়ে উঠেছে।
সিভির "বৈকল্পিক" বলতে কোনটি বোঝায় তা খুব পরিষ্কার হওয়া উচিত। পুনরাবৃত্তি সিভি অনুমানের বৈকল্পিকতা হ্রাস করে । মনে রাখবেন যে লিভ-ওয়ান-আউট সিভি (LOOCV) এর ক্ষেত্রে, যখন কে = এন , এই বৈকল্পিকটি শূন্যের সমান। তবুও, প্রায়শই বলা হয় যে LOOCV আসলে সমস্ত সম্ভাব্য কে- ফোল্ড সিভিগুলির সর্বাধিক বৈকল্পিকতা রয়েছে । উদাহরণস্বরূপ এখানে দেখুন: ক্রস-বৈধকরণে বৈকল্পিকতা এবং পক্ষপাত: কেন ছাড়ুন-এক-আউট সিভির উচ্চতর বৈকল্পিকতা থাকে?μkk=Nk
কেন এমন? এর কারণ LOOCV একটি অনুমান হিসাবে সর্বোচ্চ ভ্যারিয়েন্স হয়েছে যা নতুন ডেটা মডেল প্রত্যাশিত ভবিষ্যদ্বাণীপূর্ণ কর্মক্ষমতা যখন হিসাবে একই আকারের একটি নতুন ডেটা সেটটি উপরে নির্মিত এস । এটি সম্পূর্ণ ভিন্ন বিষয়।α1S