আমি অনেকবার এমন একটি ডেটাসেট বিশ্লেষণ করেছি যার উপরে আমি সত্যিই কোনও শ্রেণিবদ্ধকরণ করতে পারি নি। আমি শ্রেণিবদ্ধ পেতে পারি কিনা তা দেখার জন্য আমি সাধারণত নিম্নলিখিত পদক্ষেপগুলি ব্যবহার করেছি:
- সংখ্যাগত মানের বিপরীতে লেবেলের বাক্স প্লট তৈরি করুন।
- ক্লাস পৃথকযোগ্য কিনা তা দেখতে মাত্রিকতা 2 বা 3 এ হ্রাস করুন, কখনও কখনও এলডিএ ব্যবহার করে দেখুন।
- এসভিএম এবং র্যান্ডম অরণ্যগুলিকে ফিট করার জন্য দৃ Force়তার সাথে চেষ্টা করুন এবং বৈশিষ্ট্যগুলি গুরুত্ব দেয় কি না তা দেখার জন্য বৈশিষ্ট্য-গুরুত্বটি দেখুন।
- ক্লাস ভারসাম্যহীন কোনও সমস্যা হতে পারে কিনা তা পরীক্ষা করার জন্য আন্ডার স্যাম্পলিং এবং ওভার-স্যাম্পলিংয়ের মতো ক্লাস এবং কৌশলগুলির ভারসাম্যকে পরিবর্তন করার চেষ্টা করুন।
আমি ভাবতে পারি এমন আরও অনেকগুলি পন্থা রয়েছে তবে চেষ্টা করে দেখিনি। কখনও কখনও আমি জানি যে এই বৈশিষ্ট্যগুলি ভাল নয় এবং আমরা যে লেবেলের পূর্বাভাস দেওয়ার চেষ্টা করছি তার সাথে সম্পর্কিত নয়। তারপরে আমি অনুশীলনটি শেষ করতে সেই ব্যবসায়ের স্বীকৃতিটি ব্যবহার করি, এই উপসংহারে যে আমাদের আরও ভাল বৈশিষ্ট্য বা সম্পূর্ণ আলাদা লেবেল প্রয়োজন।
আমার প্রশ্নটি কীভাবে কোনও ডেটা সায়েন্টিস্ট রিপোর্ট করে যে এই বৈশিষ্ট্যগুলির সাথে শ্রেণিবদ্ধকরণ করা যায় না। প্রথমে বিভিন্ন অ্যালগরিদমে ডেটা ফিট করে এবং বৈধতা মেট্রিকের দিকে তাকানো কি সেরা বিকল্প?