প্রশিক্ষণ ডেটা সেটে আমার ক্লাসগুলি কখন ব্যালেন্স করা উচিত?


29

আমার একটি অনলাইন কোর্স ছিল, যেখানে আমি শিখেছি যে প্রশিক্ষণের ডেটাগুলিতে ভারসাম্যহীন ক্লাসগুলি সমস্যার কারণ হতে পারে, কারণ শ্রেণিবদ্ধকরণ অ্যালগরিদম সংখ্যাগরিষ্ঠ নিয়মের জন্য যায়, কারণ ভারসাম্যহীনতা খুব বেশি হলে এটি ভাল ফলাফল দেয়। একটি অ্যাসাইনমেন্টে একজনকে সংখ্যাগরিষ্ঠ শ্রেণির আন্ডার স্যাম্পলিংয়ের মাধ্যমে ডেটা ভারসাম্য বজায় রাখতে হয়।

তবে এই ব্লগে কেউ দাবি করেছেন যে ভারসাম্যপূর্ণ ডেটা আরও খারাপ:

https://matloff.wordpress.com/2015/09/29/unbalanced-data-is-a-problem-no-balanced-data-is-worse/

তাহলে কোনটা? আমার কি ডেটা ব্যালেন্স করা উচিত? এটি কি ব্যবহৃত অ্যালগরিদমের উপর নির্ভর করে, কেউ কেউ ক্লাসের ভারসাম্যহীন অনুপাতে পারদর্শী হতে পারে? যদি তা হয় তবে ভারসাম্যহীন ডেটাতে কোনটি নির্ভরযোগ্য?

উত্তর:


28

স্বজ্ঞাত যুক্তিটি ব্লগপোস্টে ব্যাখ্যা করা হয়েছে:

আমাদের লক্ষ্য যদি ভবিষ্যদ্বাণী হয় তবে এটি একটি নির্দিষ্ট পক্ষপাত ঘটায়। এবং আরও খারাপ, এটি একটি স্থায়ী পক্ষপাত হবে, এই অর্থে যে নমুনার আকার বাড়ার সাথে আমাদের ধারাবাহিক অনুমান হবে না।

সুতরাং, যুক্তিযুক্তভাবে (কৃত্রিমভাবে) ভারসাম্যযুক্ত ডেটার সমস্যা ভারসাম্যহীন ক্ষেত্রে থেকে খারাপ।

ভারসাম্যযুক্ত ডেটা শ্রেণিবিন্যাসের জন্য ভাল, তবে আপনি স্পষ্টত উপস্থিতি ফ্রিকোয়েন্সি সম্পর্কে তথ্য শিথিল করেন যা যথার্থতা মেট্রিকগুলিকে নিজেরাই প্রভাবিত করতে চলেছে পাশাপাশি উত্পাদন কর্মক্ষমতাও।

ধরা যাক আপনি ইংরেজি বর্ণমালার (26 অক্ষর) হাতে লেখা চিঠিগুলি সনাক্ত করছেন। প্রতিটি বর্ণের উপস্থিতিকে অতিরিক্ত ভারসাম্য জানানো প্রতিটি অক্ষরকে প্রায় 1/26 শ্রেণিবদ্ধ (সঠিকভাবে বা না) হওয়ার সম্ভাবনা দেয়, তাই শ্রেণিবদ্ধকারী আসল নমুনায় অক্ষরের প্রকৃত বন্টন সম্পর্কে ভুলে যান। এবং এটি ঠিক আছে যখন শ্রেণিবদ্ধকারী উচ্চ অক্ষর সহ প্রতিটি অক্ষরকে সাধারণীকরণ করতে ও সনাক্ত করতে সক্ষম হয়

তবে যদি নির্ভুলতা এবং সবচেয়ে গুরুত্বপূর্ণভাবে সাধারণীকরণটি "এত উচ্চ" না হয় (আমি আপনাকে একটি সংজ্ঞা দিতে পারি না - আপনি এটিকে কেবল "সবচেয়ে খারাপ ক্ষেত্রে" হিসাবে ভাবতে পারেন) - ভুল বর্ণিত পয়েন্টগুলি সম্ভবত সমস্ত অক্ষরের মধ্যে সমানভাবে বিতরণ করবে , কিছুটা এইরকম:

"A" was misclassified 10 times
"B" was misclassified 10 times
"C" was misclassified 11 times
"D" was misclassified 10 times
...and so on

ব্যালেন্স না করে এর বিপরীতে (ধরে নিই যে "A" এবং "C" এর পাঠ্যটিতে উপস্থিতির অনেক বেশি সম্ভাবনা রয়েছে)

"A" was misclassified 3 times
"B" was misclassified 14 times
"C" was misclassified 3 times
"D" was misclassified 14 times
...and so on

সুতরাং ঘন ঘন কেসগুলি কম সংখ্যক বিযুক্তি পাবে। এটি ভাল বা না আপনার কাজের উপর নির্ভর করে। প্রাকৃতিক পাঠ্য স্বীকৃতির জন্য, কেউ তর্ক করতে পারে যে উচ্চতর ফ্রিকোয়েন্সি সহ চিঠিগুলি আরও কার্যক্ষম হয়, কারণ তারা মূল পাঠ্যের শব্দার্থতত্ত্বগুলি সংরক্ষণ করে, স্বীকৃতি কার্যটি পূর্বাভাসের নিকটে নিয়ে আসে (যেখানে শব্দার্থক প্রবণতাগুলি উপস্থাপন করে )। তবে আপনি যদি ইসিডিএসএ-কি-এর স্ক্রিনশটের মতো কিছু সনাক্ত করার চেষ্টা করছেন (আরও এনট্রপি -> কম পূর্বাভাস) এর - ডেটা ভারসাম্যহীন রাখতে সাহায্য করবে না। সুতরাং, আবার, এটি নির্ভর করে।

সর্বাধিক গুরুত্বপূর্ণ পার্থক্যটি হ'ল নির্ভুলতার প্রাক্কলনটি হ'ল নিজেই পক্ষপাতদুষ্ট হওয়া (যেমন আপনি ভারসাম্যপূর্ণ বর্ণমালার উদাহরণে দেখতে পাচ্ছেন), তাই আপনি জানেন না যে কীভাবে মডেলটির আচরণটি সবচেয়ে বিরল বা ঘন ঘন পয়েন্টগুলির দ্বারা প্রভাবিত হচ্ছে।

পিএস আপনি সর্বদা যথার্থ / রিকল মেট্রিক্সের সাথে ভারসাম্যহীন শ্রেণিবিন্যাসের কার্যকারিতা ট্র্যাক করতে পারেন প্রথম এবং সিদ্ধান্ত কিনা মিট বা না যোগ করতে হবে।


p(xi|θ)p(xi|θ^)θ^iθi, কখনও কখনও জনসংখ্যা নিজেই বা বৃহত্তর নমুনা থেকে পরিচিত প্যারামিটারগুলি অনুসারে ক্লাসগুলি পুনরায় ভারসাম্য করার পরামর্শ দেওয়া হয় (এভাবে আরও ভাল অনুমানকারী)। যাইহোক, বাস্তবে কোনও গ্যারান্টি নেই যে প্রতিটি পদক্ষেপের পক্ষপাতদুষ্ট তথ্য পাওয়ার ঝুঁকির কারণে "বৃহত্তর নমুনা" অভিন্নভাবে বিতরণ করা হয়েছে (আসুন আমরা বলি যে প্রযুক্তিগত সাহিত্য বনাম পুরো লাইব্রেরি বনাম কথাসাহিত্য থেকে সংগৃহীত ইংরেজি অক্ষরগুলি) সুতরাং ভারসাম্যহীনতা ক্ষতিকারক হতে পারে।

এই উত্তরের ভারসাম্যের জন্য প্রযোজ্যতার মানদণ্ডও স্পষ্ট করা উচিত:

সংখ্যালঘু শ্রেণীর অন্তর্গত পর্যাপ্ত নিদর্শন না থাকায় শ্রেণি ভারসাম্যহীন সমস্যা দেখা দেয়, নিজেই প্রতি ইতিবাচক এবং নেতিবাচক নিদর্শনগুলির অনুপাত দ্বারা নয়। সাধারণত আপনার পর্যাপ্ত ডেটা থাকলে, "শ্রেণির ভারসাম্যহীন সমস্যা" দেখা দেয় না

উপসংহার হিসাবে, প্রশিক্ষণের সেট যথেষ্ট বড় হলে কৃত্রিম ভারসাম্য খুব কমই কার্যকর। বৃহত্তর থেকে পরিসংখ্যানগত তথ্যের অনুপস্থিতি স্বতন্ত্রভাবে বিতরণ করা নমুনা কৃত্রিম ব্যালেন্সিংয়ের প্রয়োজন নেই (বিশেষত পূর্বাভাসের জন্য), অন্যথায় অনুমানকারীর গুণমান "ডাইনোসরের সাথে দেখা করার সম্ভাবনা" হিসাবে তত ভাল:

রাস্তায় ডাইনোসরের সাথে দেখা হওয়ার সম্ভাবনা কত?

1/2 আপনি হয় ডাইনোসর বা আপনি ডাইনোসরের সাথে দেখা করেন না


5
আমি মনে করি সমস্যাটির ব্যাখ্যা ছাড়াও এই উত্তরটি থেকে নেওয়া গুরুত্বপূর্ণ বিষয়টি হ'ল প্রথমে ভারসাম্যহীন চেষ্টা করা উচিত এবং এর ফলাফলগুলি পরীক্ষা করা উচিত এবং প্রয়োজনে কেবল ভারসাম্য বজায় রেখে ফলাফলটি পরীক্ষা করা উচিত। +1
জেলফির কাল্টসটাহল

সুতরাং, অন্য কথায়, প্রশিক্ষণ উপসেটে সমানভাবে বিতরণ করা ক্লাসগুলির সাথে মডেলটি অদেখা তথ্যে তার যথার্থতাটি আলগা করবে, তাই না? তবে, বিপরীত ক্ষেত্রে, যেখানে আপনি প্রশিক্ষণ / পরীক্ষার সাবসেটগুলির জন্য কোনও ডেটাসেটের এন্ট্রিগুলি এলোমেলোভাবে বের করার চেষ্টা করছেন, সেখানে আপনার শ্রেণিবদ্ধ আরও ভাল সম্পাদন করবে?
ক্রিস্টোস কে।

@ChristosK। অনেকের বক্তব্য অনুসারে, আপনি যখন সমস্যাটিকে শ্রেণিবিন্যাস হিসাবে দেখেন, তখন ভবিষ্যদ্বাণী সম্পর্কে तर्क করা শক্ত। যাই হোক না কেন, আপনি পক্ষপাতিত্ব সরিয়ে ফেললে (নমুনা "এলোমেলোভাবে") - কর্মক্ষমতা উন্নত করতে আপনার আরও বড় নমুনার প্রয়োজন। শব্দার্থক সংরক্ষণের জন্য এটি কেবলমাত্র "সাধারণত" নমুনা যথেষ্ট বড়, সুতরাং ওভারবালান্সিং কেবল আঘাত এবং নিয়মিতকরণের হাতুড়িটিকে নিয়মিত করার মতো কাজ করবে যা যথাযথ বিবেচনা ছাড়াই সবকিছুকে "সমতল" করে তোলে। ডায়নোসর রূপক হিসাবে যেমন বোঝায় যে, "সুষম" অর্থ "এমনকি" নয় - আপনি তখনই সঠিক ব্যালেন্সিং করেন যখন আপনি জানেন যে কিছু সম্ভাবনাগুলি "এলোমেলো" নমুনায় ভুল উপস্থাপন করা হয়েছে।
dk14

1
@ChristosK। কিছু স্পষ্টতার জন্য ধন্যবাদ। আমি যেটা বোঝাতে চেয়েছিলাম তা একই নয় তবে পদ্ধতির খুব মিল রয়েছে। আপনার প্রাথমিক নমুনা "কিন্ডা ছোট" হলে কে-ভাড়ার প্রয়োগযোগ্যতার জন্য সাধারণ সুপারিশটি তা করা। নিশ্চিত নয়, তবে ভাঁজটি যাইহোক আঘাত করা উচিত নয় - এটি কেবলমাত্র আরও বেশি রান নেয় এবং আপনি ভবিষ্যদ্বাণী সম্পর্কে যত কম যত্নশীল হন, সাধারণীকরণ / পারফরম্যান্স সম্পর্কে যতটা কম লাগে ততটুকু মনে হয় :) care তবে সামগ্রিকভাবে - কে-ফোল্ডের অর্থ মূলত কম পক্ষপাতিত্ব।
dk14

1
@ChristosK। ওহ, এবং একটি সতর্কতা হিসাবে, স্প্যাম / না-স্প্যাম অনুপাতটি নিজেই একটি অ-স্টেশনারি র্যান্ডম ভেরিয়েবল হতে পারে। এই সমস্ত "ভুয়া সংবাদ", "রাশিয়ান ট্রলস" এবং অন্যান্য জিনিসগুলির সাথে আমি এই ধরনের অনুমানগুলি সম্পর্কে সতর্ক থাকব - অনুপাতটিও পক্ষপাতদুষ্ট হতে পারে। আপনি প্রথমে আপনার ক্লাসিফায়ারগুলিতে প্রিসিকেশনালকলের অনুমান করতে চাইতে পারেন, যদি কোনও কিছু অল্প-নমুনাযুক্ত হয় - তবে আমি আরও ডেটা সংগ্রহ / উত্পন্ন (?) করব।
dk14

17

@ কেজেটিল-বি-হালভোরসেনের মন্তব্যের সাথে সামঞ্জস্য রেখে মেশিন লার্নিংয়ের দ্রুত গ্রহণের ফলে ভবিষ্যদ্বাণী বনাম শ্রেণিবিন্যাস সম্পর্কে গবেষকরা বিভ্রান্ত হয়েছেন। আমি এখানে আরও বিশদ হিসাবে বর্ণনা করেছি , শ্রেণিবিন্যাস কেবল সংখ্যালঘু ক্ষেত্রেই উপযুক্ত। যখন ফলাফল বিরল (বা খুব সাধারণ) হয় তখন সম্ভাবনাগুলিই সমস্ত কিছু কারণ যে ক্ষেত্রে শুধু যুক্তিসঙ্গতভাবে সম্পর্কে কথা বলতে পারেন প্রবণতাও না পৃথক ঘটনার পূর্বাভাসের সম্পর্কে।

পরিসংখ্যানগুলিতে, আমরা কিছুক্ষণ আগে শিখেছি যে কোনও পদ্ধতির জন্য যে কোনও একটি তথ্য উপাত্তকে বাদ দিতে হয় তা অত্যন্ত সন্দেহজনক। সুতরাং ভারসাম্যপূর্ণ ফলাফলের লক্ষ্যটি ভুল জায়গায়। প্রবণতাগুলির পূর্বাভাস (সম্ভাব্যতা) এর প্রয়োজন হয় না। এবং একবার আপনি কোনও সম্ভাবনা অনুমান করলে আপনি পূর্বাভাসিত ঝুঁকিতে ইউটিলিটি / ব্যয় / ক্ষতি ফাংশন প্রয়োগ করে একটি অনুকূল সিদ্ধান্ত নিতে পারেন।


1

শ্রেণিবিন্যাস থেকে আপনি কী অর্জন করতে চান তার উপর নির্ভর করে?

বলুন এটি ক্যান্সার v / s অ ক্যান্সার, তবে ক্যান্সার সনাক্তকরণ অত্যাবশ্যক। তবে যেহেতু নন-ক্যান্সার আপনার ডেটা সর্বাধিক তৈরি করবে তাই শ্রেণিবদ্ধকারী সমস্ত ক্ষেত্রে কেস-নন-ক্যান্সারে পাঠাতে এবং খুব উচ্চ নির্ভুলতা পেতে পারে। তবে আমরা তা বহন করতে পারি না, সুতরাং আমরা মূলত নমুনা-ক্যান্সারজনিত কেস কেস কেড়ে নিই, মূলত সিদ্ধান্তের সীমাটি ক্যান্সার অঞ্চল থেকে ক্যান্সারহীন অঞ্চলে সরিয়ে নিয়ে যাই।

এমনকি ব্যবহারের ক্ষেত্রেও যেখানে সঠিকতা আমাদের একমাত্র লক্ষ্য, যদি পরীক্ষার সময় ব্যালেন্স ট্রেনের সময় থেকে আলাদা হওয়ার আশা করা হয় তবে ভারসাম্য বজায় রাখা জরুরি can

উদাহরণস্বরূপ বলুন যে আপনি আম এবং কমলাগুলিকে শ্রেণিবদ্ধ করতে চান, আপনার 900 টি আম এবং 30 কমলা দিয়ে একটি প্রশিক্ষণ ডেটাসেট রয়েছে তবে আপনি এটি সমান আম এবং কমলা দিয়ে বাজারে স্থাপনের প্রত্যাশা করছেন, তবে আদর্শিকভাবে আপনার সর্বাধিকতর পরিমাণে প্রত্যাশিত নমুনা অনুপাতের নমুনা করা উচিত সঠিকতা.


আমার বক্তৃতাগুলি থেকে এটিই আমি বুঝতে পেরেছিলাম। তবে, আমি বুঝতে পারি না যে ভারসাম্য কখন খারাপ হতে পারে, যেমনটি এই ব্লগ পোস্টটি পরামর্শ দেয় ts কেন এটি ভারসাম্য বজায় রাখা খারাপ হবে, যদি প্রতিটি শ্রেণীর জন্য পর্যাপ্ত ডাটা পয়েন্ট থাকে?
জেলফির কালটসটহল

দুঃখিত, তবে আপনার উপমা অনুসারে, বাজারের ফল বিতরণটির মডেল যথার্থতার সাথে কী আছে? আপনি হয় কমলা থেকে আম আলাদা করতে শিখেছেন, নাও not অন্য কথায়, আপনি কমলা-কেবল বা কেবল আমের বাজারে একই মডেলটি স্থাপন করতে সক্ষম হওয়া উচিত ।
ফার্নান্দো

3
তবে ক্যান্সারের উদাহরণ সহ সমস্যাটি এটিকে শ্রেণিবিন্যাস হিসাবে দেখানো , এটি ঝুঁকি অনুমান হিসাবে বিবেচনা করা উচিত । তারপরে ভারসাম্যহীন ক্লাসগুলির সাথে আপাত সমস্যাটি অদৃশ্য হয়ে যায়, দেখুন stats.stackexchange.com/questions/127042/…
কেজিটিল বি হালওয়ারসেন

1

যখন আপনার ডেটা সুষম হয় আপনি মেট্রিক নির্ভুলতা পরীক্ষা করতে পছন্দ করতে পারেন। কিন্তু যখন এমন পরিস্থিতি আপনার ডেটা ভারসাম্যহীন হয় তখন আপনার নির্ভুলতা বিভিন্ন পুনরাবৃত্তির জন্য সামঞ্জস্যপূর্ণ নয়। আপনাকে যথার্থ (পিপিআর), পুনর্বিবেচনা (সংবেদনশীলতা) এর মতো আরও মেট্রিকগুলিকে মনোনিবেশ করতে হবে। তুলনা করার সময় এই দুটি মেট্রিকের ভারসাম্য থাকা উচিত। এছাড়াও আপনাকে এফ 1-স্কোর যাচাই করতে হবে যা যথার্থতা এবং পুনর্বিবেচনার সুরেলা উপায়। এটি সমস্ত মেশিন লার্নিং অ্যালগরিদমের জন্য প্রযোজ্য

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.