হোল্ড-আউট প্রায়শই স্বতন্ত্র পরীক্ষার সেটটির সাথে বৈধতার সমার্থক হিসাবে ব্যবহৃত হয়, যদিও এলোমেলোভাবে ডেটা বিভক্ত করা এবং স্বাধীন পরীক্ষার জন্য বৈধতা পরীক্ষার নকশা করার মধ্যে গুরুত্বপূর্ণ পার্থক্য রয়েছে।
স্বতন্ত্র পরীক্ষার সেটগুলি সাধারণীকরণের পারফরম্যান্স পরিমাপ করতে ব্যবহার করা যেতে পারে যা পুনরায় মডেলিং বা হোল্ড-আউট বৈধতা দ্বারা পরিমাপ করা যায় না, উদাহরণস্বরূপ ভবিষ্যতের অজানা কেসগুলির জন্য কর্মক্ষমতা (= প্রশিক্ষণ শেষ হওয়ার পরে কেসগুলি পরে পরিমাপ করা হয়)। নতুন ডেটার জন্য বিদ্যমান মডেলটি কতক্ষণ ব্যবহার করা যেতে পারে তা জানতে এটি গুরুত্বপূর্ণ (উদাহরণস্বরূপ উপকরণের ড্রিফ্ট)। আরও সাধারণভাবে, এটি প্রয়োগের সীমাটি নির্ধারণ করার জন্য এক্সট্রা পোলশন কর্মক্ষমতা পরিমাপ হিসাবে বর্ণনা করা যেতে পারে।
হোল্ড আউট প্রকৃত পক্ষে উপকারী হতে পারে এমন আরেকটি পরিস্থিতি হ'ল: প্রশিক্ষণ এবং পরীক্ষার ডেটা সঠিকভাবে পৃথক করা হয়েছে তা নিশ্চিত করা খুব সহজ - যাচাইকরণের পুনর্নির্মাণের চেয়ে অনেক সহজ: যেমন
- বিভাজনের সিদ্ধান্ত নিন (উদাহরণস্বরূপ মামলার র্যান্ডম এ্যাসাইনমেন্ট করুন)
- পরিমাপ করা
- প্রশিক্ষণের কেসগুলির পরিমাপ এবং রেফারেন্স ডেটা => মডেলিং models মডেল হওয়া ব্যক্তির হাতে টেস্ট মামলার রেফারেন্স বা রেফারেন্সও দেওয়া হয় না।
- চূড়ান্ত মডেল + বহির্ভূত মামলার পরিমাপ => পূর্বাভাস
- আউট-আউট মামলার রেফারেন্সের সাথে পূর্বাভাসের তুলনা করুন।
আপনার যে বিচ্ছেদের স্তরের প্রয়োজন তা নির্ভর করে প্রতিটি পদক্ষেপ অন্য কারও দ্বারা করা যেতে পারে। প্রথম স্তর হিসাবে, কোনও মডেলারের কাছে পরীক্ষার কেসগুলির কোনও ডেটা (পরিমাপও নয়) হস্তান্তর না করা খুব নিশ্চিত হতে পারে যে কোনও পরীক্ষার ডেটা মডেলিংয়ের প্রক্রিয়াতে ফাঁস হয় না। দ্বিতীয় স্তরে, চূড়ান্ত মডেল এবং পরীক্ষার কেস পরিমাপ অন্য কারও হাতে হস্তান্তর করা যেতে পারে, ইত্যাদি।
হ্যাঁ, আপনি পুনরায় মডেলিং বৈধতার তুলনায় হোল্ড-আউট অনুমানের নিম্ন দক্ষতার দ্বারা তার জন্য অর্থ প্রদান করেন। তবে আমি অনেকগুলি কাগজপত্র দেখেছি যেখানে আমি সন্দেহ করি যে পুনর্নির্মাণের বৈধতা কেসগুলি যথাযথভাবে আলাদা করে না (আমার ক্ষেত্রে আমাদের প্রচুর গুচ্ছ / শ্রেণিবদ্ধ / গোষ্ঠীযুক্ত ডেটা রয়েছে)।
জমা দেওয়ার এক সপ্তাহ পরে পান্ডুলিপিটি প্রত্যাহার করে পুনর্নির্মাণের জন্য ডেটা ফাঁসের বিষয়ে আমার পাঠটি শিখেছি যখন আমার জানতে পেল যে আমার বিভাজক পদ্ধতিতে আমার পূর্বে সনাক্ত করা হয়নি (পাশাপাশি ক্রমুয়েশন পরীক্ষা চালিয়ে) ফাঁস হয়ে গেছে (সূচক গণনায় টাইপ))
ফলাফলগুলি সম্পর্কে একই স্তরের নির্দিষ্টতা অর্জনের জন্য কখনও কখনও হোল্ড-আউট পুনরায় মডেলিং কোড (যেমন ক্লাস্টার ডেটার জন্য) পরীক্ষা করতে সময় দিতে ইচ্ছুক এমন কাউকে খুঁজে পাওয়ার চেয়ে দক্ষ হতে পারে। যাইহোক, আইএমএইচও এটি পর্যায়ে না যাওয়ার আগে সাধারণত আপনি এটি করতে দক্ষ হন না যেখানে আপনি যাইহোক ভবিষ্যতের পারফরম্যান্স (প্রথম পয়েন্ট) পরিমাপ করতে হবে - অন্য কথায়, যখন আপনাকে যে কোনও উপায়ে বিদ্যমান মডেলের জন্য বৈধতা পরীক্ষা নিরীক্ষণের প্রয়োজন হয়।
ওটিওএইচ, ছোট নমুনা আকারের পরিস্থিতিগুলিতে হোল্ড-আউট কোনও বিকল্প নয়: পরীক্ষার ফলাফলগুলি প্রয়োজনীয় উপসংহারের জন্য পর্যাপ্ত সুনির্দিষ্ট হওয়ার জন্য আপনার যথেষ্ট পরীক্ষার কেস রাখা দরকার (মনে রাখবেন: শ্রেণিবিন্যাসের জন্য 3 টি পরীক্ষার মধ্যে 3 টি সঠিক মানে একটি দ্বিপদী 95% আত্মবিশ্বাসের ব্যবধান যা অনুমান করে 50:50 এর নীচে রয়েছে!) ফ্র্যাঙ্ক হ্যারেল কমপক্ষে সিএ-এর থাম্বের নিয়মকে নির্দেশ করবে একটি নির্ভুলতা যথাযথভাবে পরিমাপ করার জন্য 100 (পরীক্ষা) কেসগুলি প্রয়োজনীয় (যেমন সঠিকভাবে পূর্বাভাস দেওয়া মামলার ভগ্নাংশ] একটি দরকারী নির্ভুলতার সাথে।
আপডেট: এমন পরিস্থিতি রয়েছে যেখানে যথাযথ বিভাজন অর্জন বিশেষত কঠিন এবং ক্রস বৈধতা অপরিবর্তনীয় হয়ে পড়ে। সংখ্যক বিভ্রান্তকারীদের সাথে একটি সমস্যা বিবেচনা করুন। বিভক্ত করা সহজ যদি এই বিবাদকারীরা কঠোরভাবে বাসা বেঁধে থাকে (উদাহরণস্বরূপ অনেক রোগীর সাথে অধ্যয়ন প্রতিটি রোগীর বিভিন্ন নমুনা রয়েছে এবং প্রতিটি নমুনার কোষের একটি সংখ্যা বিশ্লেষণ করে): আপনি নমুনা স্তরক্রমের সর্বোচ্চ স্তরে বিভক্ত হন (রোগী-ভিত্তিক) । তবে আপনার কাছে স্বতন্ত্র কনফন্ডার থাকতে পারে যা নেস্টেড নয়, যেমন পরীক্ষা-নিরীক্ষা চলমান বিভিন্ন পরীক্ষার ফলে দিনের বেলা বিভিন্নতা বা বৈকল্পিকতা। তারপর আপনি নিশ্চিত বিভক্ত জন্য স্বাধীন করতে হবে সবসর্বোচ্চ স্তরের কনফাউন্ডার্স (নেস্টেড বিভ্রান্তকারীরা স্বয়ংক্রিয়ভাবে স্বাধীন হবে)। এটির যত্ন নেওয়া খুব কঠিন যদি কিছু বিভ্রান্তকারীদের কেবল অধ্যয়নের সময় চিহ্নিত করা হয়, এবং কোনও বৈধতা পরীক্ষার নকশা করা এবং সম্পাদন করা বিচ্ছিন্নতার সাথে কাজ করার চেয়ে আরও কার্যকর হতে পারে যা প্রশিক্ষণের জন্য বা সরোগেট মডেলগুলির পরীক্ষার জন্য প্রায় কোনও তথ্য রাখে না।