আমাকে একটি পাঠ্য শ্রেণিবদ্ধকরণ সমস্যা মোকাবেলা করতে হবে। একটি ওয়েব ক্রলার একটি নির্দিষ্ট ডোমেনের ওয়েবপৃষ্ঠাগুলি ক্রল করে এবং প্রতিটি ওয়েবপৃষ্ঠার জন্য আমি এটি অনুসন্ধান করতে চাই যে এটি কেবলমাত্র একটি নির্দিষ্ট শ্রেণীর অন্তর্গত। অর্থাৎ যদি আমি কল এই বর্গ ইতিবাচক , প্রতিটি ক্রল ওয়েবপেজ ক্লাসে পারেন জন্যে ইতিবাচক বা ক্লাসে অ ইতিবাচক ।
ইতিমধ্যে আমার কাছে ইতিবাচক শ্রেণির জন্য ওয়েবপৃষ্ঠাগুলির একটি বিশাল প্রশিক্ষণ সেট রয়েছে । তবে ক্লাস নন-পজিটিভ জন্য প্রশিক্ষণের সেটটি কীভাবে তৈরি করা যায় যা যতটা সম্ভব প্রতিনিধি? আমি বলতে চাইছি, আমি মূলত প্রতিটি শ্রেণীর জন্য এবং সমস্ত কিছু ব্যবহার করতে পারি। আমি কি কিছু স্বেচ্ছাসেবী পৃষ্ঠাগুলি সংগ্রহ করতে পারি যা অবশ্যই পজিটিভ শ্রেণীর অন্তর্ভুক্ত নয় ? আমি নিশ্চিত যে একটি পাঠ্য শ্রেণিবদ্ধকরণ অ্যালগরিদম (আমি একটি নাইভ বয়েস অ্যালগরিদম ব্যবহার করতে পছন্দ করি) এর কর্মক্ষমতা অত্যন্ত নির্ভর করে আমি কোন ওয়েবপৃষ্ঠাগুলি অ ধনাত্মক শ্রেণীর জন্য বেছে নিই ।
তাহলে আমি কি করব? কেউ দয়া করে আমাকে একটি পরামর্শ দিতে পারেন? আপনাকে অনেক ধন্যবাদ!