স্বজ্ঞাত যুক্তিটি ব্লগপোস্টে ব্যাখ্যা করা হয়েছে:
আমাদের লক্ষ্য যদি ভবিষ্যদ্বাণী হয় তবে এটি একটি নির্দিষ্ট পক্ষপাত ঘটায়। এবং আরও খারাপ, এটি একটি স্থায়ী পক্ষপাত হবে, এই অর্থে যে নমুনার আকার বাড়ার সাথে আমাদের ধারাবাহিক অনুমান হবে না।
সুতরাং, যুক্তিযুক্তভাবে (কৃত্রিমভাবে) ভারসাম্যযুক্ত ডেটার সমস্যা ভারসাম্যহীন ক্ষেত্রে থেকে খারাপ।
ভারসাম্যযুক্ত ডেটা শ্রেণিবিন্যাসের জন্য ভাল, তবে আপনি স্পষ্টত উপস্থিতি ফ্রিকোয়েন্সি সম্পর্কে তথ্য শিথিল করেন যা যথার্থতা মেট্রিকগুলিকে নিজেরাই প্রভাবিত করতে চলেছে পাশাপাশি উত্পাদন কর্মক্ষমতাও।
ধরা যাক আপনি ইংরেজি বর্ণমালার (26 অক্ষর) হাতে লেখা চিঠিগুলি সনাক্ত করছেন। প্রতিটি বর্ণের উপস্থিতিকে অতিরিক্ত ভারসাম্য জানানো প্রতিটি অক্ষরকে প্রায় 1/26 শ্রেণিবদ্ধ (সঠিকভাবে বা না) হওয়ার সম্ভাবনা দেয়, তাই শ্রেণিবদ্ধকারী আসল নমুনায় অক্ষরের প্রকৃত বন্টন সম্পর্কে ভুলে যান। এবং এটি ঠিক আছে যখন শ্রেণিবদ্ধকারী উচ্চ অক্ষর সহ প্রতিটি অক্ষরকে সাধারণীকরণ করতে ও সনাক্ত করতে সক্ষম হয় ।
তবে যদি নির্ভুলতা এবং সবচেয়ে গুরুত্বপূর্ণভাবে সাধারণীকরণটি "এত উচ্চ" না হয় (আমি আপনাকে একটি সংজ্ঞা দিতে পারি না - আপনি এটিকে কেবল "সবচেয়ে খারাপ ক্ষেত্রে" হিসাবে ভাবতে পারেন) - ভুল বর্ণিত পয়েন্টগুলি সম্ভবত সমস্ত অক্ষরের মধ্যে সমানভাবে বিতরণ করবে , কিছুটা এইরকম:
"A" was misclassified 10 times
"B" was misclassified 10 times
"C" was misclassified 11 times
"D" was misclassified 10 times
...and so on
ব্যালেন্স না করে এর বিপরীতে (ধরে নিই যে "A" এবং "C" এর পাঠ্যটিতে উপস্থিতির অনেক বেশি সম্ভাবনা রয়েছে)
"A" was misclassified 3 times
"B" was misclassified 14 times
"C" was misclassified 3 times
"D" was misclassified 14 times
...and so on
সুতরাং ঘন ঘন কেসগুলি কম সংখ্যক বিযুক্তি পাবে। এটি ভাল বা না আপনার কাজের উপর নির্ভর করে। প্রাকৃতিক পাঠ্য স্বীকৃতির জন্য, কেউ তর্ক করতে পারে যে উচ্চতর ফ্রিকোয়েন্সি সহ চিঠিগুলি আরও কার্যক্ষম হয়, কারণ তারা মূল পাঠ্যের শব্দার্থতত্ত্বগুলি সংরক্ষণ করে, স্বীকৃতি কার্যটি পূর্বাভাসের নিকটে নিয়ে আসে (যেখানে শব্দার্থক প্রবণতাগুলি উপস্থাপন করে )। তবে আপনি যদি ইসিডিএসএ-কি-এর স্ক্রিনশটের মতো কিছু সনাক্ত করার চেষ্টা করছেন (আরও এনট্রপি -> কম পূর্বাভাস) এর - ডেটা ভারসাম্যহীন রাখতে সাহায্য করবে না। সুতরাং, আবার, এটি নির্ভর করে।
সর্বাধিক গুরুত্বপূর্ণ পার্থক্যটি হ'ল নির্ভুলতার প্রাক্কলনটি হ'ল নিজেই পক্ষপাতদুষ্ট হওয়া (যেমন আপনি ভারসাম্যপূর্ণ বর্ণমালার উদাহরণে দেখতে পাচ্ছেন), তাই আপনি জানেন না যে কীভাবে মডেলটির আচরণটি সবচেয়ে বিরল বা ঘন ঘন পয়েন্টগুলির দ্বারা প্রভাবিত হচ্ছে।
পিএস আপনি সর্বদা যথার্থ / রিকল মেট্রিক্সের সাথে ভারসাম্যহীন শ্রেণিবিন্যাসের কার্যকারিতা ট্র্যাক করতে পারেন প্রথম এবং সিদ্ধান্ত কিনা মিট বা না যোগ করতে হবে।
p(xi|θ)p(xi|θ^)θ^i−θi, কখনও কখনও জনসংখ্যা নিজেই বা বৃহত্তর নমুনা থেকে পরিচিত প্যারামিটারগুলি অনুসারে ক্লাসগুলি পুনরায় ভারসাম্য করার পরামর্শ দেওয়া হয় (এভাবে আরও ভাল অনুমানকারী)। যাইহোক, বাস্তবে কোনও গ্যারান্টি নেই যে প্রতিটি পদক্ষেপের পক্ষপাতদুষ্ট তথ্য পাওয়ার ঝুঁকির কারণে "বৃহত্তর নমুনা" অভিন্নভাবে বিতরণ করা হয়েছে (আসুন আমরা বলি যে প্রযুক্তিগত সাহিত্য বনাম পুরো লাইব্রেরি বনাম কথাসাহিত্য থেকে সংগৃহীত ইংরেজি অক্ষরগুলি) সুতরাং ভারসাম্যহীনতা ক্ষতিকারক হতে পারে।
এই উত্তরের ভারসাম্যের জন্য প্রযোজ্যতার মানদণ্ডও স্পষ্ট করা উচিত:
সংখ্যালঘু শ্রেণীর অন্তর্গত পর্যাপ্ত নিদর্শন না থাকায় শ্রেণি ভারসাম্যহীন সমস্যা দেখা দেয়, নিজেই প্রতি ইতিবাচক এবং নেতিবাচক নিদর্শনগুলির অনুপাত দ্বারা নয়। সাধারণত আপনার পর্যাপ্ত ডেটা থাকলে, "শ্রেণির ভারসাম্যহীন সমস্যা" দেখা দেয় না
উপসংহার হিসাবে, প্রশিক্ষণের সেট যথেষ্ট বড় হলে কৃত্রিম ভারসাম্য খুব কমই কার্যকর। বৃহত্তর থেকে পরিসংখ্যানগত তথ্যের অনুপস্থিতি স্বতন্ত্রভাবে বিতরণ করা নমুনা কৃত্রিম ব্যালেন্সিংয়ের প্রয়োজন নেই (বিশেষত পূর্বাভাসের জন্য), অন্যথায় অনুমানকারীর গুণমান "ডাইনোসরের সাথে দেখা করার সম্ভাবনা" হিসাবে তত ভাল:
রাস্তায় ডাইনোসরের সাথে দেখা হওয়ার সম্ভাবনা কত?
1/2 আপনি হয় ডাইনোসর বা আপনি ডাইনোসরের সাথে দেখা করেন না