অত্যন্ত ভারসাম্যহীন ডেটা সেটের জন্য প্রশিক্ষণের পন্থা


16

আমি একটি অত্যন্ত ভারসাম্যহীন পরীক্ষা ডেটা সেট আছে। পজিটিভ সেটটিতে 100 টি কেস থাকে এবং নেগেটিভ সেটটিতে 1500 টি কেস থাকে। প্রশিক্ষণের পক্ষে, আমার কাছে আরও বড় প্রার্থী পুল রয়েছে: ইতিবাচক প্রশিক্ষণ সেটটিতে 1200 টি এবং নেতিবাচক প্রশিক্ষণের সেটটিতে 12000 কেস রয়েছে। এই ধরণের দৃশ্যের জন্য আমার বেশ কয়েকটি পছন্দ আছে:

1) পুরো প্রশিক্ষণের জন্য ওয়েটেড এসভিএম ব্যবহার করে (পি: 1200, এন: 12000)

2) নমুনা প্রশিক্ষণ সেট (পি: 1200, এন: 1200) এর উপর ভিত্তি করে এসভিএম ব্যবহার করে, 12000 কেস থেকে 1200 নেতিবাচক কেস নমুনা দেওয়া হয়।

কোন পদ্ধতিটি আরও ভাল তা সিদ্ধান্ত নেওয়ার বিষয়ে কি কোনও তাত্ত্বিক দিকনির্দেশনা রয়েছে? যেহেতু পরীক্ষার ডেটা সেটটি ভারসাম্যহীন, তাই আমি কি ভারসাম্যহীন প্রশিক্ষণ সেটও ব্যবহার করব?


1
দয়া করে নীচের প্রশ্নগুলি পরীক্ষা করুন: "বিরল" ইভেন্টগুলির সাথে তদারকি শেখা এবং এসভিএম সহ ভারসাম্যহীন মাল্টিক্লাস ডেটাসেট হ্যান্ডেল করার সর্বোত্তম উপায় । এটা কি সাহায্য করে ? সত্যই, আপনার প্রশ্নগুলি বরং অনুরূপ মনে হয়;)।
স্টেফেন

উত্তর:


7

রেডডিট সম্পর্কিত সাম্প্রতিক একটি পোস্ট থেকে , ডেটাপ্রাক্সিসের জবাবটি আগ্রহী হবে।

সম্পাদনা: উল্লিখিত গবেষণাপত্রটি হায়বো হি, এডওয়ার্ডো এ গার্সিয়া, "ভারসাম্যহীন ডেটা থেকে শিক্ষা," জ্ঞান এবং ডেটা ইঞ্জিনিয়ারিং সম্পর্কিত আইইইই লেনদেন, পিপি। 1263-1284, সেপ্টেম্বর, ২০০৯ (পিডিএফ)


0

পেয়ারওয়াইস এক্সপেন্ডেড লজিস্টিক রিগ্রেশন, আরওসি-ভিত্তিক লার্নিং, বুস্টিং অ্যান্ড ব্যাগিং (বুটস্ট্র্যাপ অ্যাগ্রিগেটিং), লিংক-ভিত্তিক ক্লাস্টার এনসেম্বল (এলসিই), বয়েশিয়ান নেটওয়ার্ক, নিকটতম সেন্ট্রয়েড শ্রেণিবদ্ধ, বায়েসিয়ান টেকনিকস, ওয়েট রুক্ষ সেট, কে-এনএন

ভারসাম্য সামলানোর জন্য প্রচুর নমুনা পদ্ধতি।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.