শ্রেণিবদ্ধ ভেরিয়েবলগুলির সাথে ওভারস্যাম্পলিং


9

আমি প্রায় দুই হাজার গ্রাহককে দুটি গ্রুপে বিভক্ত করে আমার ডেটাসেটের ভারসাম্য বজায় রাখতে ওভারস্যাম্পলিং এবং আন্ডার স্যাম্পলিংয়ের সংমিশ্রণ সম্পাদন করতে চাই, যেখানে একটির মধ্যে প্রায় 15% অনুপাত রয়েছে।

আমি SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE ) এবং রোসে ( http://cran.r-project.org/web/packages/ROSE/ এ দেখেছি ROSE.pdf ), তবে এই দু'টিই বিদ্যমান পর্যবেক্ষণ এবং উদাহরণস্বরূপ কেএনএন ব্যবহার করে নতুন সিন্থেটিক নমুনা তৈরি করে।

যাইহোক, গ্রাহকদের সাথে সম্পর্কিত অনেকগুলি বৈশিষ্ট্যগুলি স্পষ্টবাদী বলে আমি মনে করি না এটি যাওয়ার সঠিক উপায়। উদাহরণস্বরূপ, আমার প্রচুর ভেরিয়েবল যেমন অঞ্চল_এ এবং অঞ্চল_ বি পারস্পরিক একচেটিয়া, তবে কেএনএন ব্যবহার করে নতুন পর্যবেক্ষণগুলি অঞ্চল_এ এবং অঞ্চল_বি উভয় ক্ষেত্রে রাখা যেতে পারে। আপনি কি একমত যে এটি একটি সমস্যা?

সেক্ষেত্রে - কীভাবে কেবল বিদ্যমান পর্যবেক্ষণগুলির অনুলিপি করে আর-তে ওভারস্যাম্পলিং করা যায়? না এটি এটি করার ভুল উপায়?


আপনার যদি কেবল 4000 টি পর্যবেক্ষণ থাকে তবে কেন আপনার সাবমলিংয়ের প্রয়োজন?
কেজেটিল বি হালওয়ারসেন

আমি ক্লাসের প্রায় সমান অংশীদার করতে আমার ডেটা সেটকে ভারসাম্য করতে চাই। আমি যদি এখন আমার ডেটা এটির মতো ব্যবহার করি তবে মডেলগুলি সর্বাধিক শ্রেণীর হিসাবে সমস্ত পর্যবেক্ষণের পূর্বাভাস দেয়।
পীর

উত্তর:


8

ROSE এবং SMOTE শ্রেণীবদ্ধ ভেরিয়েবলগুলি হ্যান্ডেল করার জন্য ডিজাইন করা হয়েছে, সুতরাং, যদি না আপনার শ্রেণিবদ্ধ ভেরিয়েবলগুলি বাইনারি বিন্যাসে প্রকাশ করা হয়, আপনার সাধারণত সিন্থেটিক পর্যবেক্ষণগুলি পারস্পরিক একচেটিয়া শ্রেণিবদ্ধ বৈশিষ্ট্যগুলি নির্ধারিত করার বিষয়ে চিন্তা করা উচিত নয়। যদি তারা হয় তবে আপনি সর্বদা তাদেরকে উপাদান হিসাবে পুনর্গঠন করতে পারেন।

আপনার দ্বি-অঞ্চলের উদাহরণে, আপনি দুটি স্তর, "এ" এবং "বি" সহ একটি নতুন অঞ্চল পরিবর্তনশীল তৈরি করবেন। আপনার রেকর্ডগুলি আপনার মূল কলামগুলি উল্লেখ করে উপযুক্ত মানগুলি গ্রহণ করবে।

এখন, আপনি যদি এমন পরিস্থিতিতে থাকেন যে আপনার নতুন সিন্থেটিক পর্যবেক্ষণগুলি বিবাদযুক্ত বিভাগগুলি তৈরি করতে পারে কারণ এগুলি একাধিক, অন্যথায় সম্পর্কহীন ভেরিয়েবলগুলিতে ছড়িয়ে পড়েছে (উদাহরণস্বরূপ সিনথেটিক অবজারভেশন.আইসপিগ = 1 এবং সিনথেটিক অবজারভেশন.ওয়াসওয়িংস = 1) আপনি সর্বদা কিছু অতিরিক্ত ডেটা মংগিং সম্পাদন করতে পারেন আপনার মডেল অনুমানটি করার আগে এই জাতীয় ক্ষয়গুলি পরিষ্কার করার জন্য।

এছাড়াও, যেহেতু আপনার ডেটাসেটে আপনার প্রায় 600 ইভেন্ট পর্যবেক্ষণ রয়েছে, তাই সম্ভবত সংখ্যাগরিষ্ঠ শ্রেণীর নিম্নরেখাঙ্কনের মাধ্যমে প্রাপ্ত সিন্থেটিক পর্যবেক্ষণগুলি ব্যবহারের সম্ভাব্য সুবিধাগুলি বিবেচনা করুন ?

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.