ভারসাম্যহীন হিসাবে কখন আমাদের একটি ডেটাসেট বিবেচনা করা উচিত?


10

আমি এমন পরিস্থিতির মুখোমুখি হচ্ছি যেখানে কোনও ডেটাসেটে ইতিবাচক এবং নেতিবাচক উদাহরণগুলির সংখ্যা ভারসাম্যহীন।

আমার প্রশ্ন হ'ল, থাম্বের এমন কোনও নিয়ম রয়েছে যা আমাদের জানান যে কখন আমাদের ডেটাসেটে একরকম ভারসাম্য বজায় রাখার জন্য বৃহত বিভাগটি সাবমেল করা উচিত।

উদাহরণ:

  • যদি ইতিবাচক উদাহরণগুলির সংখ্যা 1000 এবং নেতিবাচক উদাহরণগুলির সংখ্যা 10,000 হয়, তবে আমি আমার শ্রেণিবদ্ধকে পুরো ডেটাসেটের প্রশিক্ষণের জন্য যেতে পারি বা নেতিবাচক উদাহরণগুলিকে নমুনা দেওয়া উচিত?
  • 1,000 ইতিবাচক উদাহরণ এবং 100,000 নেতিবাচক জন্য একই প্রশ্ন।
  • 10,000 ইতিবাচক এবং 1000 নেতিবাচক জন্য একই প্রশ্ন
  • ইত্যাদি ...

ডেটাসেটগুলির সাথে এমন কোনও ভুল নেই যা প্রতি সেঃ এর মাঝখানে নিখুঁতভাবে বিভক্ত হয় না। আপনি কোন মডেলিং কৌশল ব্যবহার করছেন? প্রযুক্তিটি যদি "ভারসাম্যপূর্ণ" ডেটার উপর নির্ভর করে তবে আপনি ভুল কৌশলটি ব্যবহার করতে পারেন।
D3C34C34D

1
নিনা জুমেল বিভিন্ন অনুমানকারীকে এখানে ভারসাম্যের প্রভাবগুলি পরীক্ষা করে , এটি অন্যকেও সহায়তা করতে পারে। তিনি এলোমেলো বন, এসভিএম এবং লগিট অনুমানের দিকে তাকান।
সিএফএম

উত্তর:


9

আমি মনে করি বেস স্তরে শ্রেণি ভারসাম্যহীনতা নিয়ন্ত্রণের জন্য সাবসাম্পলিং (ডাউনসাম্পলিং) একটি জনপ্রিয় পদ্ধতি, এর অর্থ এটি সমস্যার মূল নির্ধারণ করে। সুতরাং আপনার সমস্ত উদাহরণের জন্য, এলোমেলোভাবে প্রতিটি বারের সংখ্যাগরিষ্ঠের মধ্যে 1,000 নির্বাচন করা কাজ করবে। এমনকি আপনি 10 টি মডেল তৈরির মাধ্যমে প্রায় 1000 টি (100 সংখ্যালঘরের তুলনায় 1000 সংখ্যাগরিষ্ঠের 10 ভাজ) তৈরি করতে পারেন যাতে আপনি আপনার সম্পূর্ণ ডেটা সেটটি ব্যবহার করবেন। আপনি এই পদ্ধতিটি ব্যবহার করতে পারেন, তবে আবার কিছু ধরণের পদ্ধতি ব্যবহার না করে আপনি আবার 9,000 নমুনা ফেলে দিতে চান। সহজ ফিক্স, তবে আপনার ডেটার উপর ভিত্তি করে একটি অনুকূল মডেল পাওয়া শক্ত।

শ্রেণীর ভারসাম্যহীনতার জন্য আপনার যে ডিগ্রিটি নিয়ন্ত্রণ করতে হবে তা মূলত আপনার লক্ষ্যের উপর ভিত্তি করে। আপনি যদি খাঁটি শ্রেণিবিন্যাস সম্পর্কে চিন্তা করেন তবে ভারসাম্যহীনতা বেশিরভাগ কৌশলগুলির জন্য প্রায় 50% সম্ভাব্যতা কেটে যাবে, তাই আমি ডাউন স্যাম্পলিং বিবেচনা করব। আপনি যদি কেবল শ্রেণিবিন্যাসের ক্রমটির বিষয়ে চিন্তা করেন (ইতিবাচকগুলি সাধারণত নেতিবাচকদের চেয়ে বেশি উচ্চতর চান) এবং এটিউ এর মতো একটি পরিমাপ ব্যবহার করেন, শ্রেণি ভারসাম্যহীনতা কেবল আপনার সম্ভাবনার পক্ষপাত করবে, তবে বেশিরভাগ কৌশলগুলির জন্য আপেক্ষিক ক্রমটি শালীনভাবে স্থিতিশীল হওয়া উচিত।

শ্রেণি ভারসাম্যহীনতার জন্য লজিস্টিক রিগ্রেশনটি দুর্দান্ত কারণ আপনার কাছে যতক্ষণ না সংখ্যালঘু শ্রেণীর ৫০০ থাকে ততক্ষণ প্যারামিটারগুলির অনুমান যথেষ্ট সঠিক হবে এবং কেবলমাত্র বিরতিতে প্রভাব পড়বে, যা যদি আপনার কিছু হতে পারে তবে এটি সংশোধন করা যেতে পারে চাই। লজিস্টিক রিগ্রেশন কেবলমাত্র ক্লাসগুলির চেয়ে সম্ভাবনার মডেল করে, যাতে আপনি আপনার প্রয়োজন অনুসারে আরও ম্যানুয়াল অ্যাডজাস্টমেন্ট করতে পারেন।

শ্রেণিবিন্যাসের অনেক কৌশলতে একটি শ্রেণীর ওজন যুক্তিও রয়েছে যা আপনাকে সংখ্যালঘু শ্রেণীর দিকে আরও ফোকাস করতে সহায়তা করবে। এটি সত্য সংখ্যালঘু শ্রেণীর মিস শ্রেণিবিন্যাসকে শাস্তি দেবে, সুতরাং আপনার সামগ্রিক নির্ভুলতা কিছুটা হলেও ক্ষতিগ্রস্ত হবে তবে আপনি আরও সংখ্যালঘু শ্রেণিগুলি দেখতে শুরু করবেন যা সঠিকভাবে শ্রেণিবদ্ধ হয়েছে।


আপনি কি "আপনার কাছে সংখ্যালঘু শ্রেণীর 500 জন রয়েছেন" এর দিকনির্দেশকে প্রসারিত করতে পারেন? এই সংখ্যাটি আপনি কোথায় পেয়েছেন? এটা কি আপনার অভিজ্ঞতার ভিত্তিতে? আমি আপনার উত্তর থেকে একটি শতাংশ আশা ছিল।
জেস

2

ভারসাম্য আনুষ্ঠানিকভাবে সংজ্ঞায়িত করা হয় না তবে 1 থেকে 10 এর একটি অনুপাত সাধারণত ভারসাম্য কৌশল ব্যবহার করে লাভবান হওয়ার পক্ষে যথেষ্ট ভারসাম্যহীন।

ভারসাম্যহীনতা দুটি ধরণের, আপেক্ষিক এবং পরম। তুলনামূলকভাবে সংখ্যাগরিষ্ঠ এবং সংখ্যালঘু শ্রেণীর মধ্যে অনুপাত ভারসাম্যহীন। নিরঙ্কুশভাবে আপনার কাছে সংখ্যালঘু নমুনাও রয়েছে। ভারসাম্য অনুপাত যত বেশি হবে আপনি ততই নিখুঁত ভারসাম্যহীনতায় পৌঁছে যাবেন।

দয়া করে নোট করুন যে সোজা ফরোয়ার্ড সাবসম্পলিং ভারসাম্যহীন ডেটাসেট মোকাবেলার জন্য সর্বোত্তম উপায় নয়। এর কারণ আপনার এমন একটি শ্রেণিবদ্ধ তৈরি করা উচিত যা আপনার মূল ডেটাसेटটিতে ভাল সম্পাদন করবে। ভারসাম্যহীন ডেটাসেটগুলিতে শ্রেণিবদ্ধকারী গঠনের কৌশলটির জন্য এখানে দেখুন । আপনার শ্রেণিবদ্ধের মূল্যায়নের জন্য এখানে দেখুন


2

ডেটা ভারসাম্যহীন সমস্যা ?? তত্ত্বগতভাবে, এটি কেবল সংখ্যা সম্পর্কে। পার্থক্যটি 1 নমুনা হলেও এটি ডেটা ভারসাম্যহীন

ব্যবহারিক ক্ষেত্রে, এটি একটি ডেটা ভারসাম্যহীন সমস্যাটি তিনটি বিষয় দ্বারা নিয়ন্ত্রিত হয়: 1. আপনার নমুনার সংখ্যা এবং বন্টন ২. একই শ্রেণীর মধ্যে বিভিন্নতা 3.. বিভিন্ন শ্রেণীর মধ্যে সাদৃশ্য

শেষ দুটি বিষয়গুলি কীভাবে আমরা আমাদের সমস্যা বিবেচনা করি তা পরিবর্তন করে।

এটি ব্যাখ্যা করতে আমাকে একটি উদাহরণ দিন: ক্লাস এ = 100 নমুনা ক্লাস বি = 10 000

যদি ক্লাস বি এর মধ্যে তারতম্য খুব কম হয় তবে ডাউন স্যাম্পলিং যথেষ্ট হবে, কোনও ডাটা ভারসাম্যহীন সমস্যা নেই

ক্লাস বি এর মধ্যে যদি তারতম্যটি খুব বেশি হয় তবে ডাউন স্যাম্পলিংয়ের ফলে তথ্য ক্ষতি হতে পারে এবং নমুনা নিচে প্রয়োগ করা বিপজ্জনক

আরেকটি বিষয়, প্রচুর নমুনা (মূলত সংখ্যালঘু শ্রেণীর জন্য) থাকার ফলে তথ্য ভারসাম্যহীন সমস্যাটি শিথিল হবে এবং এর সাথে মোকাবিলা করা সহজতর হবে

যেমন 10: 100. বনাম 1000: 10 000

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.