আমি সম্প্রতি এই সাইটে (@ অ্যানিকো, @ ডিকরান মার্সুপিয়াল, @ এরিক) এবং অন্য কোথাও ক্রস বৈধকরণের সাথে অতিরিক্ত মানানসই সমস্যা সম্পর্কে অনেক কিছু পড়ছি - (স্মিওলোস্কি এট আল 2010 বায়োইনফরম্যাটিকস, হ্যাস্টি, স্ট্যাটিস্টিকাল লার্নিং এর উপাদান)। পরামর্শটি হ'ল ক্রস বৈধকরণ (বা বুটস্ট্র্যাপিংয়ের মতো অন্যান্য মডেল অনুমানের পদ্ধতি) ব্যবহার করে মডেল পারফরম্যান্স অনুমানের বাইরে যে কোনও তত্ত্বাবধান করা বৈশিষ্ট্য নির্বাচন (শ্রেণীর লেবেলের সাথে পারস্পরিক সম্পর্ক ব্যবহার করে) সম্পাদনা করার ফলে অতিরিক্ত পোশাকের ফলস্বরূপ হতে পারে।
এটি আমার কাছে অপ্রতিরোধ্য বলে মনে হচ্ছে - অবশ্যই যদি আপনি কোনও বৈশিষ্ট্য সেট নির্বাচন করেন এবং তারপরে ক্রস বৈধতা ব্যবহার করে কেবলমাত্র নির্বাচিত বৈশিষ্ট্যগুলি ব্যবহার করে আপনার মডেলটি মূল্যায়ন করেন তবে আপনি সেই বৈশিষ্ট্যগুলিতে সাধারণীকরণ করা মডেল পারফরম্যান্সের একটি নিরপেক্ষ অনুমান পেয়ে যাচ্ছেন (এটি ধরে নেওয়া হয় যে গবেষণার অধীনে নমুনাটি উপস্থাপনযোগ্য জনগণের)?
এই পদ্ধতিটি দিয়ে কেউ অবশ্যই কোনও সর্বোত্তম বৈশিষ্ট্য সেট দাবি করতে পারে না তবে অদৃশ্য ডেটাতে সেট করা নির্বাচিত বৈশিষ্ট্যটির কার্যকারিতাটি বৈধ হিসাবে কি রিপোর্ট করতে পারে?
আমি স্বীকার করি যে পুরো ডেটা সেটের উপর ভিত্তি করে বৈশিষ্ট্যগুলি নির্বাচন করা পরীক্ষা এবং ট্রেনের সেটগুলির মধ্যে কিছু ডেটা ফাঁস হতে পারে। তবে প্রাথমিক নির্বাচনের পরে যদি বৈশিষ্ট্য সেটটি স্থিতিশীল হয় এবং অন্য কোনও টিউনিং করা হচ্ছে না, তবে অবশ্যই ক্রস-বৈধতাযুক্ত পারফরম্যান্সের মেট্রিকগুলি রিপোর্ট করা বৈধ?
আমার ক্ষেত্রে আমার 56 টি বৈশিষ্ট্য এবং 259 কেস রয়েছে এবং তাই # কেসগুলি> # বৈশিষ্ট্য রয়েছে। বৈশিষ্ট্যগুলি সেন্সর ডেটা থেকে প্রাপ্ত।
দুঃখিত যদি আমার প্রশ্নটি উদ্ভূত মনে হয় তবে এটি স্পষ্ট করার জন্য একটি গুরুত্বপূর্ণ বিষয় বলে মনে হচ্ছে।
সম্পাদনা করুন: উপরে বর্ণিত ডেটা সেটটিতে ক্রস বৈধকরণের মধ্যে বৈশিষ্ট্য নির্বাচন কার্যকর করার সময় (নীচের উত্তরগুলির জন্য ধন্যবাদ), আমি নিশ্চিত করতে পারি যে এই ডেটা সেটে ক্রস-বৈধকরণের আগে বৈশিষ্ট্যগুলি নির্বাচন করা একটি উল্লেখযোগ্য ভূমিকা পালন করেছিলপক্ষপাত। 2-শ্রেণির গঠনের তুলনায় 3-শ্রেণির গঠনের জন্য এই পক্ষপাতিত্ব / ওভারফিটিংটি সর্বাধিক ছিল। আমি মনে করি যে আমি বৈশিষ্ট্য নির্বাচনের জন্য ধাপে ধাপে রিগ্রেশনটি ব্যবহার করেছি তা এই উত্সাহকে বাড়িয়ে তুলেছে; তুলনা উদ্দেশ্যে, ভিন্ন কিন্তু সম্পর্কিত ডেটা সেটে আমি সিভিতে বৈশিষ্ট্য নির্বাচনের সাথে পূর্বে প্রাপ্ত ফলাফলগুলির বিরুদ্ধে ক্রস-বৈধকরণের পূর্বে সম্পাদিত ক্রমবর্ধমান বৈশিষ্ট্য নির্বাচনের রুটিনের তুলনা করেছি। উভয় পদ্ধতির মধ্যে ফলাফল নাটকীয়ভাবে পৃথক হয়নি। এর অর্থ এই হতে পারে যে ধাপে ধাপে রিগ্রেশনটি সিক্যুয়াল এফএসের চেয়ে বেশি মানানসই প্রবণতা বা এই ডেটা সেটটির এক গৌরব হতে পারে।