অত্যন্ত আকর্ষণীয় প্রশ্ন, আপনার দেওয়া কাগজপত্রগুলি আমাকে পড়তে হবে ... তবে সম্ভবত এটি আমাদের উত্তর দিয়ে শুরু করবে:
আমি সাধারণত এই সমস্যাটি খুব বাস্তববাদী উপায়ে মোকাবিলা করি: আমি কে-ফোল্ড ক্রস বৈধতাটিকে নতুন এলোমেলো বিভাজন দিয়ে পুনরায় করি এবং প্রতিটি পুনরাবৃত্তির জন্য যথারীতি পারফরম্যান্স গণনা করি। সামগ্রিক পরীক্ষার নমুনাগুলি প্রতিটি পুনরাবৃত্তির জন্য একই হয় এবং পার্থক্যগুলি ডেটার বিভিন্ন বিভাজন থেকে আসে।
nk−1
পার্শ্ব দ্রষ্টব্য: আমি যাইহোক সূত্রগুলির আকারের প্রয়োজন এমন সূত্রগুলি ব্যবহার করতে পারি না। যেহেতু আমার ডেটা কাঠামোতে গুচ্ছযুক্ত বা শ্রেণিবিন্যাসিক (একই ক্ষেত্রে অনেকগুলি অনুরূপ তবে পুনরাবৃত্ত পরিমাপ নয়, সাধারণত একই নমুনার বিভিন্ন [শতাধিক] বিভিন্ন অবস্থান) আমি কার্যকর নমুনার আকার জানি না।
বুটস্ট্র্যাপিংয়ের সাথে তুলনা:
পুনরাবৃত্তিগুলি নতুন এলোমেলো বিভক্ত ব্যবহার করে।
মূল পার্থক্যটি হ'ল (বুটস্ট্র্যাপ) বা (সিভি) প্রতিস্থাপন ছাড়াই পুনরায় মডেলিং।
≈
কিছু পরিসংখ্যানগত বৈশিষ্ট্যের ক্ষেত্রে বুটস্ট্র্যাপের সিভি-র তুলনায় সুবিধা রয়েছে (অ্যাসিপটোটিক্যালি সঠিক, সম্ভবত একটি ভাল অনুমানের জন্য আপনার কম পুনরাবৃত্তি প্রয়োজন)
যাইহোক, সিভি দিয়ে আপনার যে সুবিধাটি হ'ল এটি নিশ্চিত
- সমস্ত মডেলের জন্য স্বতন্ত্র প্রশিক্ষণের নমুনাগুলির সংখ্যা একই (যদি আপনি শেখার বক্ররেখার গণনা করতে চান তবে গুরুত্বপূর্ণ)
- প্রতিটি নমুনা প্রতিটি পুনরাবৃত্তিতে ঠিক একবার পরীক্ষা করা হয়
কিছু শ্রেণিবদ্ধকরণ পদ্ধতি পুনরাবৃত্ত নমুনাগুলি বাতিল করে দেবে, সুতরাং বুটস্ট্র্যাপিং কোনও অর্থ দেয় না
পারফরম্যান্সের জন্য বৈচিত্র্য
সংক্ষিপ্ত উত্তর: হ্যাঁ, যেখানে কেবলমাত্র {0,1 s ফলাফল রয়েছে এমন পরিস্থিতিতে তারতম্যের কথা বলার অর্থ নেই।
দ্বিপদী বিতরণ দেখুন (কে = সাফল্য, এন = পরীক্ষা, পি = সাফল্যের সত্য সম্ভাবনা = গড় কে / এন):
σ2(k)=np(1−p)
pp^
- প্লাইস: হার এবং অনুপাতের জন্য পরিসংখ্যানগত পদ্ধতি
- ফোরথোফার এবং লি: বায়োস্টাটিক্সের একটি দুর্দান্ত ভূমিকা রয়েছে।
p^=kn
σ2(p^)=p(1−p)n
এর অর্থ হল শ্রেণিবদ্ধের পারফরম্যান্স পরিমাপের জন্য অনিশ্চয়তা কেবলমাত্র পরীক্ষিত মডেলের সত্যিকারের পারফরম্যান্স পি এবং পরীক্ষার নমুনার সংখ্যার উপর নির্ভর করে।
ক্রস বৈধতা আপনি অনুমান
আপনি "নমুনা" মডেল হিসাবে সাধারণভাবে সমস্ত নমুনা থেকে তৈরি করেন এমন "সত্যিকারের" মডেলের মতোই সত্যিকারের পারফরম্যান্সটি কে "সারোগেট" মডেলের রয়েছে। (এই অনুমানের ভাঙ্গন হ'ল সুপরিচিত হতাশাবাদী পক্ষপাত)।
যে কে "সারোগেট" মডেলগুলির একই সত্য পারফরম্যান্স রয়েছে (সমতুল্য, স্থিতিশীল ভবিষ্যদ্বাণী রয়েছে), তাই আপনাকে কে পরীক্ষার ফলাফলগুলি সজ্জিত করার অনুমতি দেওয়া হয়।
অবশ্যই কেবলমাত্র সিভির এক পুনরাবৃত্তির কে "সারোগেট" মডেলগুলিই পোল করা যায় না তবে কে-ফোল্ড সিভিয়ের আই পুনরাবৃত্তির কি মডেলগুলিও পোল করা যায়।
পুনরাবৃত্তি কেন?
পুনরাবৃত্তি আপনাকে যে প্রধান জিনিসটি বলে তা হ'ল মডেল (ভবিষ্যদ্বাণী) অস্থিরতা, অর্থাত একই নমুনার জন্য বিভিন্ন মডেলের ভবিষ্যদ্বাণীগুলির বৈকল্পিকতা।
p^
এবং হ্যাঁ, এটি গুরুত্বপূর্ণ তথ্য।
nbootstrapk⋅niter. cvn−1≈nσ2(p^)=p(1−p)n
pknp^n
আপনি যদি মডেল অস্থিতিশীলতা পর্যবেক্ষণ করেন, পুলের গড়টি সত্য পারফরম্যান্সের আরও ভাল অনুমান। পুনরাবৃত্তির মধ্যে বৈকল্পিকতা একটি গুরুত্বপূর্ণ তথ্য এবং আপনি এটির পুনরাবৃত্তির উপরে যথাযথ পারফরম্যান্স গড় পারফরম্যান্সের সাথে আকার n এর একটি পরীক্ষার সেটটির জন্য প্রত্যাশিত ন্যূনতম বৈকল্পিকের সাথে তুলনা করতে পারেন।