আমি যে সমস্যার মুখোমুখি হচ্ছি তা হ'ল সংক্ষিপ্ত পাঠকে একাধিক শ্রেণিতে শ্রেণিবদ্ধ করা হচ্ছে। আমার বর্তমান পদ্ধতির টিএফ-আইডিএফ ওজনযুক্ত শব্দ ফ্রিকোয়েন্সি ব্যবহার করা এবং একটি সাধারণ লিনিয়ার শ্রেণিবদ্ধ (লজিস্টিক রিগ্রেশন) শিখতে হবে। এটি যুক্তিসঙ্গতভাবে ভাল কাজ করে (পরীক্ষার সেটটিতে 90% ম্যাক্রো এফ -1, প্রশিক্ষণে প্রায় 100%)। একটি বড় সমস্যা হ'ল অদেখা শব্দ / এন-গ্রাম।
আমি অন্যান্য বৈশিষ্ট্যগুলি যুক্ত করে শ্রেণিবদ্ধকে উন্নত করার চেষ্টা করছি, উদাহরণস্বরূপ বিতরণের মিলগুলি (ওয়ার্ড 2vec দ্বারা গণনা করা) বা উদাহরণগুলির অন্যান্য শ্রেণীবদ্ধ বৈশিষ্ট্যগুলি ব্যবহার করে একটি নির্দিষ্ট আকারের ভেক্টর গণনা করা। আমার ধারণাটি ছিল কেবল শব্দের ব্যাগ থেকে বিরল ইনপুট বৈশিষ্ট্যগুলিতে বৈশিষ্ট্যগুলি যুক্ত করা। যাইহোক, এর ফলাফল পরীক্ষা এবং প্রশিক্ষণ সেটে খারাপ পারফরম্যান্সে আসে। নিজেরাই অতিরিক্ত বৈশিষ্ট্যগুলি পরীক্ষার সেটটিতে প্রায় 80% এফ -1 দেয়, তাই এগুলি আবর্জনা নয়। বৈশিষ্ট্যগুলি স্কেলিংয়ের পাশাপাশি কোনও উপকার হয়নি। আমার বর্তমান চিন্তাভাবনাটি হ'ল এই জাতীয় বৈশিষ্ট্যগুলি শব্দের বৈশিষ্ট্যগুলির (স্পার্স) ব্যাগের সাথে ভালভাবে মেশে না।
সুতরাং প্রশ্নটি হ'ল অতিরিক্ত বৈশিষ্ট্যগুলি অতিরিক্ত তথ্য সরবরাহ করে, তাদের অন্তর্ভুক্ত করার সর্বোত্তম উপায় কোনটি? পৃথক শ্রেণিবদ্ধকারীদের প্রশিক্ষণ দিতে এবং তাদেরকে একজাতীয় কাজের মধ্যে একত্রিত করতে পারে (এটি সম্ভবত এই অসুবিধা হতে পারে যে বিভিন্ন শ্রেণিবদ্ধের বৈশিষ্ট্যগুলির মধ্যে কোনও মিথস্ক্রিয়া ধরা যায় না)? আরও কি জটিল মডেলগুলি বিবেচনা করা উচিত?