ওভারস্যাম্পলড ভারসাম্যহীন ডেটার উপর পরীক্ষার শ্রেণিবিন্যাস


19

আমি মারাত্মক ভারসাম্যহীন ডেটা নিয়ে কাজ করছি। সাহিত্যে, পুনঃ-স্যাম্পলিং (অতি-বা নিম্ন-স্যাম্পলিং) ব্যবহার করে ডেটাটিকে ভারসাম্য বজায় রাখতে বেশ কয়েকটি পদ্ধতি ব্যবহার করা হয়। দুটি ভাল পন্থা হ'ল:

  • স্মোট: কৃত্রিম সংখ্যালঘু ওভার-স্যাম্পলিং টেকনিক ( স্মোট )

  • এডাসিন: ভারসাম্যহীন শিক্ষার জন্য অ্যাডাপিটিভ সিন্থেটিক স্যাম্পলিং অ্যাপ্রোচ ( ADASYN )

আমি ADASYN বাস্তবায়িত করেছি কারণ এর অভিযোজিত প্রকৃতি এবং বহু-শ্রেণীর সমস্যাগুলিতে সম্প্রসারণের সহজতা।

আমার প্রশ্ন হ'ল ADASYN (বা অন্য কোনও ওভারস্যাম্পলিং পদ্ধতি) দ্বারা উত্পাদিত ওভারস্যাম্পলড ডেটা কীভাবে পরীক্ষা করা যায়। তারা কীভাবে তাদের পরীক্ষা-নিরীক্ষা করেছে তা উল্লিখিত দুটি গবেষণাপত্রে এটি পরিষ্কার নয়। দুটি পরিস্থিতি রয়েছে:

1- পুরো ডেটাসেটের ওভারসাম্পল করুন, তারপরে এটিকে প্রশিক্ষণ এবং পরীক্ষার সেটগুলিতে বিভক্ত করুন (বা ক্রস বৈধকরণ)।

2- মূল ডেটাসেট বিভক্ত করার পরে, শুধুমাত্র প্রশিক্ষণ সেটে ওভারস্যাম্পলিং সম্পাদন করুন এবং মূল ডেটা টেস্ট সেটটিতে পরীক্ষা করুন (ক্রস বৈধকরণের সাথে সম্পাদন করা যেতে পারে)।

ওভারস্যাম্পলিং না করে প্রথম ক্ষেত্রে ফলাফলগুলি আরও ভাল, তবে যদি ওভারফিটিং না হয় তবে আমি উদ্বিগ্ন। দ্বিতীয় ক্ষেত্রে ফলাফলগুলি ওভারস্যাম্পলিং ছাড়াই কিছুটা ভাল এবং প্রথম ক্ষেত্রেটির চেয়ে খারাপ। তবে দ্বিতীয় কেসের সাথে উদ্বেগটি হ'ল যদি সমস্ত সংখ্যালঘু শ্রেণির নমুনাগুলি টেস্টিং সেটে যায়, তবে ওভারস্যাম্পলিংয়ের মাধ্যমে কোনও লাভ হবে না।

এ জাতীয় ডেটা পরীক্ষা করার জন্য অন্য কোনও সেটিংস রয়েছে কিনা তা আমি নিশ্চিত নই।

উত্তর:


18

কয়েকটি মন্তব্য:

বিকল্পটি (1) একটি খুব খারাপ ধারণা। একই পয়েন্টের অনুলিপিগুলি প্রশিক্ষণ এবং পরীক্ষা উভয় সেট-এ শেষ হতে পারে। এটি ক্লাসিফায়ারকে প্রতারণা করতে দেয়, কারণ পরীক্ষার সেটটিতে পূর্বাভাস দেওয়ার চেষ্টা করার সময় শ্রেণিবদ্ধকারীটি ট্রেনের সেটে অভিন্ন পয়েন্টগুলি দেখতে পাবে। একটি পরীক্ষা সেট এবং একটি ট্রেন সেট থাকার পুরো বিষয়টি হ'ল পরীক্ষার সেটটি ট্রেনের সেট থেকে স্বতন্ত্র হওয়া উচিত।

k


উত্তরের জন্য স্টিফান ধন্যবাদ। তবে আমি একটি বিষয় পরিষ্কার করতে চাই: যে পদ্ধতিগুলি আমি উল্লেখ করেছি সেগুলি "সিন্থেটিক" উদাহরণগুলি তৈরি করে, মূলটির মতো নয়। সুতরাং আমি ঠিক একই প্রশিক্ষণের ডেটা পরীক্ষা করছি বলে মনে হয় না। তবে, এখনও আমি নিশ্চিত নই যে বিকল্প 1 বৈধ পদ্ধতির কিনা।
ভাড়া

আচ্ছা আমি দেখি! (১) সমস্যাটি এখনও ধরে রেখেছে, যদিও আপনি "সিন্থেটিক" ডেটা তৈরি করেন, কারণ সিন্থেটিক ডেটা সাধারণত এটি মূল নকলের সাথে খুব মিল থাকে যা এটি নকল করছে।
স্টেফান বাজি

@ স্টেফানওয়াগার কীভাবে পরীক্ষার সেট বিতরণ করবেন? এটি কি মূল ডেটা সেটের মতো হওয়া উচিত?
wannik

2
এই দাবি সমর্থন করার জন্য নিবন্ধের কোন রেফারেন্স?
girl101

@ স্টিফানের এই পদ্ধতির সঠিক আপনি আপনার বৈধতা সেটটি কখনই বৃদ্ধি বা সংশ্লেষিত করবেন না কারণ আপনার মডেল কীভাবে শিখছে তার প্রমাণ (পরীক্ষা)
চালিয়ে

9

দ্বিতীয় (2) বিকল্পটি এটি করার সঠিক উপায়। ওভারস্যাম্পলিং কৌশলগুলির সাহায্যে আপনি যে কৃত্রিম নমুনাগুলি তৈরি করেন সেগুলি প্রকৃত উদাহরণ নয় বরং সিন্থেটিক। এগুলি পরীক্ষার উদ্দেশ্যে বৈধ নয় যখন তারা প্রশিক্ষণের জন্য এখনও ঠিক আছে। তারা অ্যালগোরিদম পরিবর্তন না করে শ্রেণিবদ্ধের আচরণ পরিবর্তন করার উদ্দেশ্যে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.