আমি মারাত্মক ভারসাম্যহীন ডেটা নিয়ে কাজ করছি। সাহিত্যে, পুনঃ-স্যাম্পলিং (অতি-বা নিম্ন-স্যাম্পলিং) ব্যবহার করে ডেটাটিকে ভারসাম্য বজায় রাখতে বেশ কয়েকটি পদ্ধতি ব্যবহার করা হয়। দুটি ভাল পন্থা হ'ল:
স্মোট: কৃত্রিম সংখ্যালঘু ওভার-স্যাম্পলিং টেকনিক ( স্মোট )
এডাসিন: ভারসাম্যহীন শিক্ষার জন্য অ্যাডাপিটিভ সিন্থেটিক স্যাম্পলিং অ্যাপ্রোচ ( ADASYN )
আমি ADASYN বাস্তবায়িত করেছি কারণ এর অভিযোজিত প্রকৃতি এবং বহু-শ্রেণীর সমস্যাগুলিতে সম্প্রসারণের সহজতা।
আমার প্রশ্ন হ'ল ADASYN (বা অন্য কোনও ওভারস্যাম্পলিং পদ্ধতি) দ্বারা উত্পাদিত ওভারস্যাম্পলড ডেটা কীভাবে পরীক্ষা করা যায়। তারা কীভাবে তাদের পরীক্ষা-নিরীক্ষা করেছে তা উল্লিখিত দুটি গবেষণাপত্রে এটি পরিষ্কার নয়। দুটি পরিস্থিতি রয়েছে:
1- পুরো ডেটাসেটের ওভারসাম্পল করুন, তারপরে এটিকে প্রশিক্ষণ এবং পরীক্ষার সেটগুলিতে বিভক্ত করুন (বা ক্রস বৈধকরণ)।
2- মূল ডেটাসেট বিভক্ত করার পরে, শুধুমাত্র প্রশিক্ষণ সেটে ওভারস্যাম্পলিং সম্পাদন করুন এবং মূল ডেটা টেস্ট সেটটিতে পরীক্ষা করুন (ক্রস বৈধকরণের সাথে সম্পাদন করা যেতে পারে)।
ওভারস্যাম্পলিং না করে প্রথম ক্ষেত্রে ফলাফলগুলি আরও ভাল, তবে যদি ওভারফিটিং না হয় তবে আমি উদ্বিগ্ন। দ্বিতীয় ক্ষেত্রে ফলাফলগুলি ওভারস্যাম্পলিং ছাড়াই কিছুটা ভাল এবং প্রথম ক্ষেত্রেটির চেয়ে খারাপ। তবে দ্বিতীয় কেসের সাথে উদ্বেগটি হ'ল যদি সমস্ত সংখ্যালঘু শ্রেণির নমুনাগুলি টেস্টিং সেটে যায়, তবে ওভারস্যাম্পলিংয়ের মাধ্যমে কোনও লাভ হবে না।
এ জাতীয় ডেটা পরীক্ষা করার জন্য অন্য কোনও সেটিংস রয়েছে কিনা তা আমি নিশ্চিত নই।