আমি প্রায় দুই হাজার গ্রাহককে দুটি গ্রুপে বিভক্ত করে আমার ডেটাসেটের ভারসাম্য বজায় রাখতে ওভারস্যাম্পলিং এবং আন্ডার স্যাম্পলিংয়ের সংমিশ্রণ সম্পাদন করতে চাই, যেখানে একটির মধ্যে প্রায় 15% অনুপাত রয়েছে।
আমি SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE ) এবং রোসে ( http://cran.r-project.org/web/packages/ROSE/ এ দেখেছি ROSE.pdf ), তবে এই দু'টিই বিদ্যমান পর্যবেক্ষণ এবং উদাহরণস্বরূপ কেএনএন ব্যবহার করে নতুন সিন্থেটিক নমুনা তৈরি করে।
যাইহোক, গ্রাহকদের সাথে সম্পর্কিত অনেকগুলি বৈশিষ্ট্যগুলি স্পষ্টবাদী বলে আমি মনে করি না এটি যাওয়ার সঠিক উপায়। উদাহরণস্বরূপ, আমার প্রচুর ভেরিয়েবল যেমন অঞ্চল_এ এবং অঞ্চল_ বি পারস্পরিক একচেটিয়া, তবে কেএনএন ব্যবহার করে নতুন পর্যবেক্ষণগুলি অঞ্চল_এ এবং অঞ্চল_বি উভয় ক্ষেত্রে রাখা যেতে পারে। আপনি কি একমত যে এটি একটি সমস্যা?
সেক্ষেত্রে - কীভাবে কেবল বিদ্যমান পর্যবেক্ষণগুলির অনুলিপি করে আর-তে ওভারস্যাম্পলিং করা যায়? না এটি এটি করার ভুল উপায়?