আমার বেশিরভাগ 150 টি উদাহরণ রয়েছে (এমন একটি প্রশিক্ষণ ও পরীক্ষায় বিভক্ত) রয়েছে যেখানে অনেকগুলি বৈশিষ্ট্য (1000 এর চেয়েও বেশি) রয়েছে dat আমার ক্লাসিফায়ারগুলি এবং বৈশিষ্ট্য নির্বাচন পদ্ধতিগুলি তুলনা করতে হবে যা ডেটাতে ভাল সম্পাদন করে। সুতরাং, আমি তিনটি শ্রেণিবদ্ধকরণ পদ্ধতি (জে 48, এনবি, এসভিএম) এবং 2 টি বৈশিষ্ট্য নির্বাচন পদ্ধতি (সিএফএস, র্যাপারসুবসেট) বিভিন্ন অনুসন্ধান পদ্ধতির (লোভী, বেস্টফার্স্ট) ব্যবহার করছি।
তুলনা করার সময়, আমি প্রশিক্ষণের নির্ভুলতা (5-ভাঁজ ক্রস-ভাঁজ) এবং পরীক্ষার নির্ভুলতার দিকে তাকিয়ে আছি।
এখানে জে 48 এবং সিএফএস-বেস্টফার্স্টের ফলাফলগুলির একটি:
acc "নির্ভুলতা প্রশিক্ষণ": 95.83, "নির্ভুলতা টেস্ট": 98.21}
অনেকগুলি ফলাফল এর মতো, এবং এসভিএম-তে অনেকগুলি ফলাফল রয়েছে যা নির্দেশ করে যে পরীক্ষার যথার্থতা প্রশিক্ষণের চেয়ে অনেক বেশি (প্রশিক্ষণ: 60%, পরীক্ষা: 98%)
আমি কীভাবে এই ধরণের ফলাফলকে অর্থপূর্ণভাবে ব্যাখ্যা করতে পারি? যদি এটি কম হয় তবে আমি বলব এটি অত্যধিক মানানসই। সমস্ত ফলাফল দেখে এই ক্ষেত্রে পক্ষপাত এবং বৈকল্পিকতা সম্পর্কে কিছু বলার আছে? এই শ্রেণিবিন্যাসকে অর্থবহ করে তোলার জন্য আমি কী করতে পারি, যেমন প্রশিক্ষণ এবং পরীক্ষার সেটগুলি পুনরায় নির্বাচন করা বা সমস্ত ডেটাতে কেবল ক্রস-বৈধকরণ ব্যবহার করে?
আমার কাছে 73 টি প্রশিক্ষণ এবং 58 টি পরীক্ষার দৃষ্টান্ত রয়েছে। কিছু পোস্টের পোস্ট করার সময় কিছু উত্তরের এই তথ্য ছিল না।