নীতিগতভাবে:
সম্পূর্ণ ডেটাসেটে প্রশিক্ষিত একটি একক মডেল ব্যবহার করে আপনার ভবিষ্যদ্বাণীগুলি করুন (যাতে বৈশিষ্ট্যগুলির মধ্যে কেবল একটি সেট থাকে)। ক্রস-বৈধকরণ কেবলমাত্র পুরো ডেটাসেটে প্রশিক্ষিত একক মডেলের ভবিষ্যদ্বাণীপূর্ণ পারফরম্যান্স অনুমান করার জন্য ব্যবহৃত হয়। ক্রস-বৈধতা ব্যবহার করা গুরুত্বপূর্ণ যে প্রতিটি ভাগে আপনি প্রাথমিক মডেলের সাথে মানানসই পুরো পদ্ধতিটি পুনরাবৃত্তি করেন, অন্যথায় আপনি পারফরম্যান্সে যথেষ্ট আশাবাদী পক্ষপাতিত্ব দিয়ে শেষ করতে পারেন।
এটি কেন ঘটে তা দেখতে, 1000 বাইনারি বৈশিষ্ট্যযুক্ত কেবল বাইনারি শ্রেণিবিন্যাসের সমস্যাটি বিবেচনা করুন তবে কেবল 100 টি ক্ষেত্রে, যেখানে কেস এবং বৈশিষ্ট্যগুলি সম্পূর্ণরূপে এলোমেলো, তাই বৈশিষ্ট্যগুলি এবং যে কোনও ক্ষেত্রেই এর মধ্যে কোনও পরিসংখ্যানের সম্পর্ক নেই। যদি আমরা সম্পূর্ণ ডেটাসেটে কোনও প্রাথমিক মডেলকে প্রশিক্ষণ দিই, তবে আমরা প্রশিক্ষণ সেটটিতে সর্বদা শূন্য ত্রুটি অর্জন করতে পারি কারণ মামলার চেয়ে আরও বেশি বৈশিষ্ট্য রয়েছে। এমনকি আমরা "তথ্যবহুল" বৈশিষ্ট্যগুলির একটি উপসেটও খুঁজে পেতে পারি (এটি সুযোগের সাথে সম্পর্কিত হতে পারে)। যদি আমরা কেবলমাত্র সেই বৈশিষ্ট্যগুলি ব্যবহার করে ক্রস-বৈধকরণ সম্পাদন করি তবে আমরা পারফরম্যান্সের একটি প্রাক্কলন পাই যা এলোমেলো অনুমানের চেয়ে ভাল। কারণটি হ'ল ক্রস-বৈধকরণ পদ্ধতির প্রতিটি ভাগে পরীক্ষার জন্য ব্যবহৃত আউট-আউট কেসগুলির কিছু তথ্য রয়েছে কারণ বৈশিষ্ট্যগুলি বেছে নেওয়া হয়েছিল কারণ সেগুলি ভবিষ্যদ্বাণী করার পক্ষে ভাল ছিল, সেগুলি সমস্ত, আউট রাখা সহ। অবশ্যই সত্য ত্রুটির হার হবে 0.5।
যদি আমরা যথাযথ পদ্ধতি অবলম্বন করি এবং প্রতিটি ভাগে বৈশিষ্ট্য নির্বাচন সম্পাদন করি, তবে সেই ভাগে ব্যবহৃত বৈশিষ্ট্যগুলির পছন্দের ক্ষেত্রে অনুষ্ঠিত আউট কেসগুলি সম্পর্কে আর কোনও তথ্য নেই। আপনি যদি সঠিক পদ্ধতি ব্যবহার করেন তবে এক্ষেত্রে আপনি প্রায় 0.5 টির একটি ত্রুটি হার পাবেন (যদিও এটি ডেটাসেটের বিভিন্ন উপলব্ধির জন্য কিছুটা আলাদা হবে)।
পড়ার জন্য ভাল কাগজপত্রগুলি হ'ল:
ক্রিস্টোফ অ্যামব্রয়েস, জেফ্রি জে ম্যাকল্যাচলান, "মাইক্রোয়ারে জিন-এক্সপ্রেশন ডেটার ভিত্তিতে জিন উত্তোলনে নির্বাচন পক্ষপাত", পিএনএএস http://www.pnas.org/content/99/10/6562.abstract
যা ওপি এবং অত্যন্ত প্রাসঙ্গিক
গ্যাভিন সি। কাওলি, নিকোলা এলসি টালবট, "পারফরম্যান্স মূল্যায়নের ক্ষেত্রে মডেল নির্বাচনের ওভার-ফিটিং এবং পরবর্তী নির্বাচন বায়াস", জেএমএলআর 11 (জুলাই): 2079−2107, 2010 http://jMLr.csail.mit.edu/papers /v11/cawley10a.html
যা দেখায় যে একই জিনিস সহজেই মডেল নির্বাচনের ক্ষেত্রে ocurr করতে পারে (যেমন একটি এসভিএমের হাইপার-পরামিতিগুলি সুর করে, যা সিভি পদ্ধতির প্রতিটি পুনরাবৃত্তিতে পুনরাবৃত্তি করা প্রয়োজন)।
প্রস্তুতিতে:
পারফরম্যান্স অনুমানের জন্য ব্যাগিং এবং আউট-ব্যাগ ত্রুটি ব্যবহার করার পরামর্শ দেব। আপনি অনেকগুলি বৈশিষ্ট্য ব্যবহার করে একটি কমিটি মডেল পাবেন তবে এটি আসলে একটি ভাল জিনিস। আপনি যদি কেবল একটি একক মডেল ব্যবহার করেন তবে সম্ভবত আপনি বৈশিষ্ট্য নির্বাচনের মানদণ্ডকে বেশি মানিয়ে নেবেন এবং এমন একটি মডেল শেষ করবেন যা আরও বেশি সংখ্যক বৈশিষ্ট্য ব্যবহার করে এমন মডেলের চেয়ে দরিদ্র ভবিষ্যদ্বাণী দেয়।
রিগ্রেশন-এ সাবসেট নির্বাচনের বিষয়ে অ্যালান মিলার্স বই (পরিসংখ্যানগুলির উপর চ্যাপম্যান এবং হল মনোগ্রাফগুলি এবং প্রয়োগিত সম্ভাব্যতা, খণ্ড 95) ভাল পরামর্শ দেয় (পৃষ্ঠা 221) যে যদি ভবিষ্যদ্বাণীপূর্ণ পারফরম্যান্স সবচেয়ে গুরুত্বপূর্ণ কাজ হয় তবে কোনও বৈশিষ্ট্য নির্বাচন করবেন না পরিবর্তে কেবল রিজ রিগ্রেশন ব্যবহার করুন। এবং এটি সাবসেট নির্বাচনের একটি বইতে আছে !!! ; O)