আমি মোটামুটি ভারসাম্যহীন ডেটাতে এসভিএম দিয়ে একটি পূর্বাভাস মডেল তৈরি করার চেষ্টা করছি। আমার লেবেল / আউটপুট তিনটি শ্রেণি, ধনাত্মক, নিরপেক্ষ এবং নেতিবাচক আছে। আমি বলব যে ইতিবাচক উদাহরণটি আমার ডেটা প্রায় 10 - 20% করে, প্রায় 50 - 60% নিরপেক্ষ, এবং 30 - 40% সম্পর্কে নেতিবাচক। আমি ক্লাসগুলির মধ্যে ভারসাম্য বজায় রাখার চেষ্টা করছি কারণ ক্লাসগুলির মধ্যে ভুল পূর্বাভাসের সাথে সম্পর্কিত খরচটি এক নয়। একটি পদ্ধতি হ'ল প্রশিক্ষণের ডেটা পুনরায় তৈরি করা এবং সমান ভারসাম্যযুক্ত ডেটাসেট তৈরি করা যা মূলের চেয়ে বড় larger মজার বিষয় হল, যখন আমি এটি করি, তখন আমি অন্যান্য শ্রেণীর জন্য আরও ভাল ভবিষ্যদ্বাণী পাওয়ার প্রবণতা পাই (যেমন আমি যখন তথ্যগুলিতে ভারসাম্য বজায় করি তখন আমি ইতিবাচক শ্রেণীর জন্য উদাহরণের সংখ্যা বাড়িয়েছিলাম, তবে নমুনা পূর্বাভাসের বাইরে, নেতিবাচক শ্রেণি আরও ভাল করে তোলে)। যে কেউ সাধারণত ব্যাখ্যা করতে পারে কেন এটি ঘটে? আমি যদি নেতিবাচক শ্রেণীর উদাহরণের সংখ্যা বৃদ্ধি করি তবে নমুনা পূর্বাভাসের (উদাহরণস্বরূপ, আরও ভাল পূর্বাভাস) বাদ দিয়ে আমি কি ধনাত্মক শ্রেণীর জন্য অনুরূপ কিছু পাব?
এছাড়াও আমি অন্যায়নের জন্য কীভাবে ভারসাম্যহীন তথ্যগুলিকে সমাধান করতে পারি সে সম্পর্কেও অনেকগুলি উন্মুক্ত যেহেতু হয় হয় বিবিধ শ্রেণিকরণে বিভিন্ন ব্যয় আরোপের মাধ্যমে বা LibSVM- এর শ্রেণীর ওজন ব্যবহারের মাধ্যমে (সেগুলি সঠিকভাবে নির্বাচন করার / টিউন করার বিষয়ে নিশ্চিত নন)।