কেন আমাদের ডাটা ভারসাম্যহাল পরিচালনা করতে হবে?


12

আমাদের কেন ভারসাম্যহীনতার ভারসাম্য মোকাবেলা করতে হবে তা জানতে হবে। আমি কীভাবে এটির মোকাবিলা করতে এবং সমস্যা সমাধানের বিভিন্ন পদ্ধতি যা স্যাম্পলিং বা ডাউন স্যাম্পলিংয়ের মাধ্যমে বা স্মোট ব্যবহার করে সমাধান করা যায় তা আমি জানি।

উদাহরণস্বরূপ, যদি আমার মধ্যে বিরল রোগ হয় 100 এর মধ্যে 1 শতাংশ, এবং বলি যে আমি আমার প্রশিক্ষণের জন্য একটি ভারসাম্যপূর্ণ ডেটা সেট করার সিদ্ধান্ত নিয়েছি যা হ'ল: 50/50 নমুনা কি মেশিনটিকে ভাববে না যে 50% রোগী থাকবে? রোগ? যদিও অনুপাতটি 100 এর 1। সুতরাং

  1. আমাদের কেন ডেটা ভারসাম্যহুলতা মোকাবেলা করতে হবে?
  2. ভারসাম্য নির্ধারণের জন্য প্রস্তাবিত অনুপাত কী What

আমি এই প্রশ্ন পছন্দ। কেন খুব গুরুত্বপূর্ণ তা বোঝা যাচ্ছে।
ডএল

উত্তর:


8

সংখ্যালঘু শ্রেণীর সন্ধানের মূল্য সংখ্যাগরিষ্ঠ সন্ধানের চেয়ে অনেক বেশি হলে আপনার ভারসাম্যহীন ডেটা সেট মোকাবেলা করতে হবে।

ধরা যাক যে জনসংখ্যার ১% এর বিরল রোগ রয়েছে। মনে করুন যে আপনি একজন সুস্থ মানুষ অসুস্থ বা অসুস্থ মানুষটি সুস্থ আছেন তা বলার জন্যও একই ব্যয় নির্ধারণ করেছেন assign এমন একটি মডেল সরবরাহ করুন যা বলবে যে প্রত্যেকে সুস্থ আছেন, 99% নির্ভুলতা পান এবং তাড়াতাড়ি বাড়িতে যান। এই জাতীয় মডেলের সমস্যা হ'ল এটির উচ্চ নির্ভুলতা থাকলেও সম্ভবত আপনি যা খুঁজছেন তা তা করবে না। আপনি বেশিরভাগ সময় এই রোগের লোকদের খুঁজে পেতে চান (মিথ্যা নেতিবাচকদের উচ্চ ওজন দেওয়া) আপনি স্বাস্থ্যকর ব্যক্তিকে অনির্ধারিত পরীক্ষায় (ভ্রান্ত পজিটিভের পক্ষে কম ওজন) প্রেরণ করতে ভয় পাওয়ার চেয়ে অনেক বেশি। একটি বাস্তব বিশ্বের স্বাস্থ্য সমস্যা ওজন মধ্যে অনুপাত সহজেই 1 থেকে 1000 হতে পারে।

বিতরণে ভারসাম্যহুলি বেশিরভাগ অ্যালগরিদমকে সঠিক সমাধান খুঁজে পেতে ব্যর্থ হয়।

আপনি সঠিক যে কেবল বিতরণে ভারসাম্য বজায় রাখা সর্বোত্তম সমাধান নয়। প্রকৃতপক্ষে, একটি অ্যালগরিদম যা ভারসাম্য বন্টন সম্পর্কে প্রশিক্ষণপ্রাপ্ত তা প্রাকৃতিক বিতরণে খাপ খায় না যার ভিত্তিতে এটি মূল্যায়ন করা হবে। আমার প্রিয় পদ্ধতিটি এটিকে আবার মানিয়ে নিচ্ছে, আপনি এখানে দেখতে পারেন । একটি আলোচনার জন্য, এখানে দেখুন

কেবল অন্য কোনও সমস্যার অনুপাত নির্ধারণ করা কার্যকর হবে না কারণ আপনার একই সমস্যা থাকবে।

স্মোট এক অন্যভাবে কাজ করছে, যা চেষ্টা করার পরে ঠিক তেমন কার্যকর হয়নি, তবে এটি আপনার সমস্যার সাথে খাপ খায়


সুতরাং আমি যেমন ডেটাটি ভারসাম্য করা আরও ভাল বুঝতে পারি কারণ বেশিরভাগ অ্যালগরিদম ভারসাম্যযুক্ত ডেটাতে প্রাকৃতিক বিতরণে মাপসই না করে তা ভালভাবে কাজ করে?
সারা

আপনি যখন এই বাক্যটির আরও বিশদ বর্ণনা করতে পারেন "যখন আপনার ত্রুটির মূল্য নমুনার বিতরণে ফিট করে না।" আমি এটি খুব ভালভাবে পাইনি
সারা

1
প্রথম মন্তব্যের জবাব: ভারসাম্যহীন ডেটা সেট অ্যালগরিদমগুলিকে সংখ্যাগরিষ্ঠতা ফিরিয়ে দিয়ে ভাল ফলাফল পেতে নেতৃত্ব দেবে। আপনি যদি সংখ্যালঘুতে বেশি আগ্রহী হন তবে সমস্যা হবে। সুতরাং, ভারসাম্যহীনতা অ্যালগরিদমকে সংখ্যালঘুদের আরও বেশি ওজন দিতে বাধ্য করার উপায়। যাইহোক, একবার আপনি ভারসাম্য বজায় রাখার পরে, ট্রেন বিতরণ এবং পরীক্ষার বিতরণ আলাদা হয় তাই আপনাকে নিজের মডেলটিকে পরীক্ষার বিতরণে পুনরায় অভিযোজিত করতে হবে (যেমন আমি প্রস্তাবিত পদ্ধতিতে)।
ডএল

দ্বিতীয় মন্তব্যের জবাব দেওয়া: সত্যই, সে বিষয়টিটি কিছুটা অস্পষ্ট ছিল। আমি উত্তর সম্পাদনা করেছি। এটা কি এখন পরিষ্কার?
ডএল

হ্যাঁ আমি যেমন বুঝতে পারি প্রশিক্ষণ এবং পরীক্ষার বিতরণ একই হওয়া উচিত, তাই এটির সমাধান কী হবে যে আমি আমার প্রশিক্ষণের সেটটি 50% এর অনুপাতে ভারসাম্য করার পরে, আমিও চলে যাই এবং আমার পরীক্ষার সেটটি 50% এ সেট করি?
সারা

4
  • সংক্ষিপ্ত উত্তর:

আপনার / শ্রেণীর ভারসাম্যহীনতা মোকাবেলা করতে হবে যদি / কারণ এটি আপনার মডেলটিকে আরও ভাল করে তোলে (অদৃশ্য ডেটাতে)। "বেটার" এমন একটি জিনিস যা আপনাকে নিজের সংজ্ঞা দিতে হবে। এটি নির্ভুলতা হতে পারে, এটি একটি ব্যয় হতে পারে, এটি সত্যিকারের ইতিবাচক হার ইত্যাদি হতে পারে

  • দীর্ঘ উত্তর:

ক্লাস ভারসাম্যহীনতার কথা বলার সময় উপলব্ধি করা একটি সূক্ষ্ম অবহেলা রয়েছে। যথা, আপনার ডেটা ভারসাম্যহীন কারণ:

  1. ডেটা বিতরণ নিজেই ভারসাম্যহীন

কিছু ক্ষেত্রে অন্য শ্রেণীর চেয়ে এক শ্রেণি অনেক বেশি ঘটে। এবং এটা ঠিক আছে। এক্ষেত্রে আপনাকে দেখতে হবে যে কিছু ভুল অন্যের চেয়ে বেশি ব্যয়বহুল। এটি রোগীদের মধ্যে মারাত্মক রোগ শনাক্তকরণ, কেউ সন্ত্রাসবাদী কিনা তা নির্ধারণের আদর্শ উদাহরণ এটি সংক্ষিপ্ত উত্তরে ফিরে যায়। কিছু ভুল যদি অন্যের চেয়ে ব্যয়বহুল হয় তবে আপনি তাদের উচ্চতর মূল্য দিয়ে "শাস্তি" দিতে চাইবেন। অতএব, একটি ভাল মডেলের কম ব্যয় হবে। যদি সমস্ত ভুল হিসাবে খারাপ হয়, তবে আপনার ব্যয় সংবেদনশীল মডেলগুলি কেন ব্যবহার করা উচিত তার কোনও আসল কারণ নেই।

এটি লক্ষণীয়ও গুরুত্বপূর্ণ যে ব্যয়-সংবেদনশীল মডেলগুলি ব্যবহার ভারসাম্যহীন ডেটাসেটগুলির জন্য নির্দিষ্ট নয়। আপনার ডেটাও যদি পুরোপুরি সুষম হয় তবে আপনি এই জাতীয় মডেলগুলি ব্যবহার করতে পারেন।

  1. এটি ডেটার সত্যিকারের বিতরণকে উপস্থাপন করে না

কখনও কখনও আপনার ডেটা "ভারসাম্যহীন" হয় কারণ এটি ডেটার সত্যিকারের বিতরণকে উপস্থাপন করে না। এক্ষেত্রে আপনাকে সাবধানতা অবলম্বন করতে হবে, কারণ আপনার কাছে একটি শ্রেণির "অনেকগুলি" উদাহরণ এবং অন্যটির "খুব কম" উদাহরণ রয়েছে এবং তাই আপনার নিজের মডেলটি একটির উপরের চেয়ে বেশি / আন্ডারফিট না বজায় রয়েছে তা নিশ্চিত করতে হবে need এই ক্লাসের।

এটি ব্যয় ব্যবহারের চেয়ে পৃথক কারণ এটির ভুলটি অন্যটির চেয়ে খারাপ হওয়ার কারণ নাও হতে পারে। যা ঘটবে তা হ'ল আপনি পক্ষপাতদুষ্ট থাকবেন এবং অদৃশ্য ডেটাতে আপনার প্রশিক্ষিত ডেটার মতো বিতরণ না থাকলে এটি আপনার মডেলের পক্ষে উপকারী হবে না।

বলি যে আমি আপনাকে প্রশিক্ষণের ডেটা দিই এবং আপনার লক্ষ্যটি অনুমান করা হয় যে কোনও কিছু লাল বা নীল। আপনি নীল লাল বা নীল রঙের জন্য নীল ভুল করেছেন কিনা তা খুব বেশি পার্থক্য রাখে না। আপনার প্রশিক্ষণের ডেটাতে 90% লাল দৃষ্টান্ত রয়েছে যেখানে বাস্তব জীবনে কেবলমাত্র 10% সময় ঘটে। আপনার মডেলটিকে আরও ভাল করার জন্য আপনাকে এটিকে মোকাবেলা করতে হবে।


খুব বিস্তৃত উত্তর। "আপনার মডেলটি যদি কম দামের কারণে এটি আরও ভাল হয় তবে ভারসাম্যহীনতাটি মোকাবেলা করুন" এর অর্থ আপনি কী বোঝাতে চেয়েছেন তার উদাহরণ সহ আরও ব্যাখ্যা করতে পারেন। মডেলটির যদি স্বল্প ব্যয় হয় তবে কেন ভারসাম্যহীনতা মোকাবেলা করা উচিত?
সারা

আমি আমার উত্তরটি কিছুটা এডিট করেছিলাম আশা করি, এটি আরও পরিষ্কার। আমি যা বোঝাতে চেয়েছি তা হ'ল: "যদি আপনার মডেলটি কম ব্যয় হয় এবং যদি ভারসাম্যহীনতা মোকাবেলা করে ব্যয় হ্রাস করে তবে এটি আরও ভাল বিবেচনা করা হয়, তবে এটি করুন"।
ভ্যালেন্টিন কলোম
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.