ভারসাম্যহীন মাল্টিক্লাস ডেটাসেট এসভিএম সহ হ্যান্ডেল করার সর্বোত্তম উপায়


9

আমি মোটামুটি ভারসাম্যহীন ডেটাতে এসভিএম দিয়ে একটি পূর্বাভাস মডেল তৈরি করার চেষ্টা করছি। আমার লেবেল / আউটপুট তিনটি শ্রেণি, ধনাত্মক, নিরপেক্ষ এবং নেতিবাচক আছে। আমি বলব যে ইতিবাচক উদাহরণটি আমার ডেটা প্রায় 10 - 20% করে, প্রায় 50 - 60% নিরপেক্ষ, এবং 30 - 40% সম্পর্কে নেতিবাচক। আমি ক্লাসগুলির মধ্যে ভারসাম্য বজায় রাখার চেষ্টা করছি কারণ ক্লাসগুলির মধ্যে ভুল পূর্বাভাসের সাথে সম্পর্কিত খরচটি এক নয়। একটি পদ্ধতি হ'ল প্রশিক্ষণের ডেটা পুনরায় তৈরি করা এবং সমান ভারসাম্যযুক্ত ডেটাসেট তৈরি করা যা মূলের চেয়ে বড় larger মজার বিষয় হল, যখন আমি এটি করি, তখন আমি অন্যান্য শ্রেণীর জন্য আরও ভাল ভবিষ্যদ্বাণী পাওয়ার প্রবণতা পাই (যেমন আমি যখন তথ্যগুলিতে ভারসাম্য বজায় করি তখন আমি ইতিবাচক শ্রেণীর জন্য উদাহরণের সংখ্যা বাড়িয়েছিলাম, তবে নমুনা পূর্বাভাসের বাইরে, নেতিবাচক শ্রেণি আরও ভাল করে তোলে)। যে কেউ সাধারণত ব্যাখ্যা করতে পারে কেন এটি ঘটে? আমি যদি নেতিবাচক শ্রেণীর উদাহরণের সংখ্যা বৃদ্ধি করি তবে নমুনা পূর্বাভাসের (উদাহরণস্বরূপ, আরও ভাল পূর্বাভাস) বাদ দিয়ে আমি কি ধনাত্মক শ্রেণীর জন্য অনুরূপ কিছু পাব?

এছাড়াও আমি অন্যায়নের জন্য কীভাবে ভারসাম্যহীন তথ্যগুলিকে সমাধান করতে পারি সে সম্পর্কেও অনেকগুলি উন্মুক্ত যেহেতু হয় হয় বিবিধ শ্রেণিকরণে বিভিন্ন ব্যয় আরোপের মাধ্যমে বা LibSVM- এর শ্রেণীর ওজন ব্যবহারের মাধ্যমে (সেগুলি সঠিকভাবে নির্বাচন করার / টিউন করার বিষয়ে নিশ্চিত নন)।

উত্তর:


6

প্রতিটি শ্রেণীর নিদর্শনগুলির জন্য মার্জিন স্ল্যাক ভেরিয়েবলের জন্য বিভিন্ন জরিমানা রাখা তথ্য পুনরায় মডেল করার চেয়ে আরও ভাল পদ্ধতির। এটি যেভাবে যাইহোক পুনরায় মডেলিংয়ের সমকক্ষ, তবে তা বাস্তবের চেয়ে আলাদা এবং ধারাবাহিক না হয়ে পৃথক, তাই আপনার আরও নিয়ন্ত্রণ থাকে।

তবে ওজন বেছে নেওয়া সোজা নয়। প্রধানত আপনি একটি তাত্ত্বিক ভারসাম্য কাজ করতে পারেন যা অ্যাকাউন্টে ভুল শোধন ব্যয় এবং প্রশিক্ষণের মধ্যে পার্থক্য একটি অপারেশনাল পূর্ব শ্রেণীর সম্ভাবনা সেট করে তবে এটি সর্বোত্তম কর্মক্ষমতা দেয় না। করণীয় সর্বোত্তম বিষয় হ'ল ক্রস-বৈধকরণের মাধ্যমে ক্ষয়ক্ষতি হ্রাস (বিবিধ শ্রেণীর ব্যয় বিবেচনায় নেওয়া) হ্রাসের মাধ্যমে প্রতিটি শ্রেণীর জন্য পেনাল্টি / ওজন নির্বাচন করা।


কীভাবে এটি করা যায় সে সম্পর্কে একটি স্বয়ংক্রিয় উপায় আছে, বা এমন কার্যকারিতা সংযুক্তকারী এমন কোন শিক্ষিকা রয়েছে কি?
ভ্যাম

আমি সাধারণত কোনও নির্দিষ্ট জরিমানার জন্য ক্ষতির মূল্যায়ন করার জন্য একটি ম্যাটলব ফাংশন লিখি এবং তারপরে নেল্ডার-মিড সিমপ্লেক্স অ্যালগরিদম ব্যবহার করে এটি হ্রাস করুন। আমি কোনো লাইব্রেরি যে এই সালে নির্মিত হয়েছে জানি না।
Dikran মার্সুপিয়াল্স

@ ডিক্রানমারসুপিয়াল কি দ্বি-শ্রেণীর সমস্যায় দুটি মার্জিন স্ল্যাক ভেরিয়েবলের গ্রিড অনুসন্ধান আপনি সিমপ্লেক্স অ্যালগরিদম দিয়ে যা করছেন তার সমতুল্য?
স্পেসি

@ টারান্টুলা হ্যাঁ, যথাযথ অপ্টিমাইজেশন পদ্ধতিটি তুলনামূলকভাবে গুরুত্বহীন, মূল বিষয়টি হ'ল আপনি যে ক্রস-বৈধকরণের পরিসংখ্যানটি অপ্টিমাইজ করছেন তা আপনার অ্যাপ্লিকেশনটির উদ্দেশ্যে (যেমন একই শ্রেণীর ফ্রিকোয়েন্সি অপারেশনাল ব্যবহারের সম্মুখীন হয়েছে) এবং যদি জানা থাকে তবে অ্যাকাউন্টে ভুল শংসাপত্রের মূল্য গ্রহণ করা)।
ডিকরান মার্সুপিয়াল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.