শ্রেণিবদ্ধকরণে প্রশিক্ষণের ডেটা উত্পন্ন করার জন্য স্তরযুক্ত বনাম এলোমেলো নমুনার সুবিধা


21

শ্রেণিবিন্যাসের জন্য মূল ডেটাসেটকে প্রশিক্ষণে এবং পরীক্ষার সেটে বিভক্ত করার সময়, এলোমেলো নমুনার পরিবর্তে স্তরিত নমুনা ব্যবহারের কোনও / কিছু সুবিধা রয়েছে কিনা তা আমি জানতে চাই।

এছাড়াও, স্তরযুক্ত নমুনা কি এলোমেলো নমুনার চেয়ে শ্রেণিবদ্ধে আরও পক্ষপাত প্রবর্তন করে?

অ্যাপ্লিকেশন, যার জন্য আমি ডেটা প্রস্তুতির জন্য স্তরিত নমুনা ব্যবহার করতে চাই, এটি একটি র্যান্ডম অরণ্য শ্রেণিবদ্ধ, 2 এ প্রশিক্ষিত23মূল ডেটাসেটের 3 । শ্রেণিবদ্ধের আগে, সিন্থেটিক নমুনা জেনারেশনের একটি পদক্ষেপও রয়েছে (এসএমওটি [1]) যা শ্রেণীর আকারকে ভারসাম্যপূর্ণ করে।

[1] চাওলা, নীতেশ ভি।, ইত্যাদি। " স্মোট: সিন্থেটিক সংখ্যালঘু ওভার স্যাম্পলিং কৌশল technique " কৃত্রিম বুদ্ধিমত্তা গবেষণা জার্নাল 16 (2002): 321-357।

উত্তর:


21

স্ট্র্যাটেইড স্যাম্পলিংয়ের উদ্দেশ্য একটি ডেটা সেট বিভক্ত করা যাতে প্রতিটি বিভাজন কোনও কিছুর ক্ষেত্রে একই রকম হয়।

শ্রেণিবদ্ধকরণ সেটিংয়ে, এটি প্রায়শই নিশ্চিত করা হয় যে ট্রেন এবং পরীক্ষার সেটগুলিতে সম্পূর্ণ লক্ষ্য হিসাবে প্রতিটি লক্ষ্য শ্রেণীর নমুনার প্রায় একই শতাংশ থাকে have

ফলস্বরূপ, যদি ডেটা সেটে প্রতিটি শ্রেণীর একটি বিশাল পরিমাণ থাকে, স্তরিত নমুনাটি এলোমেলো নমুনার মতো প্রায় একই রকম। আপনি যদি সংখ্যালঘু শ্রেণীর উপর নজর রাখার পরিকল্পনা করেন, তবে যদি কোনও ডাটা শ্রেণিতে কোনও শ্রেণি যদি উপাত্তের সেটগুলিতে বেশি প্রতিনিধিত্ব না করে তবে এটি স্ট্রিমিটেড স্যাম্পলিং ট্রেন এবং পরীক্ষার সেটগুলিতে এলোমেলো মানের চেয়ে আলাদা লক্ষ্যবস্তু শ্রেণির বিতরণ করতে পারে may নমুনা পেতে পারে।

নোট করুন যে স্তরিত নমুনাটি পরবর্তী ট্রেন এবং পরীক্ষার সেটগুলিতে কিছু বৈশিষ্ট্য সমানভাবে বিতরণের জন্যও নকশাকৃত করা যেতে পারে। উদাহরণস্বরূপ, যদি প্রতিটি নমুনা একটি পৃথক ব্যক্তির প্রতিনিধিত্ব করে এবং একটি বৈশিষ্ট্য বয়সের হয় তবে ট্রেন এবং পরীক্ষা উভয় ক্ষেত্রে একই বয়সের বিতরণ করা কখনও কখনও কার্যকর।

অবগতির জন্য:

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.