আপনার / শ্রেণীর ভারসাম্যহীনতা মোকাবেলা করতে হবে যদি / কারণ এটি আপনার মডেলটিকে আরও ভাল করে তোলে (অদৃশ্য ডেটাতে)। "বেটার" এমন একটি জিনিস যা আপনাকে নিজের সংজ্ঞা দিতে হবে। এটি নির্ভুলতা হতে পারে, এটি একটি ব্যয় হতে পারে, এটি সত্যিকারের ইতিবাচক হার ইত্যাদি হতে পারে
ক্লাস ভারসাম্যহীনতার কথা বলার সময় উপলব্ধি করা একটি সূক্ষ্ম অবহেলা রয়েছে। যথা, আপনার ডেটা ভারসাম্যহীন কারণ:
- ডেটা বিতরণ নিজেই ভারসাম্যহীন
কিছু ক্ষেত্রে অন্য শ্রেণীর চেয়ে এক শ্রেণি অনেক বেশি ঘটে। এবং এটা ঠিক আছে। এক্ষেত্রে আপনাকে দেখতে হবে যে কিছু ভুল অন্যের চেয়ে বেশি ব্যয়বহুল। এটি রোগীদের মধ্যে মারাত্মক রোগ শনাক্তকরণ, কেউ সন্ত্রাসবাদী কিনা তা নির্ধারণের আদর্শ উদাহরণ এটি সংক্ষিপ্ত উত্তরে ফিরে যায়। কিছু ভুল যদি অন্যের চেয়ে ব্যয়বহুল হয় তবে আপনি তাদের উচ্চতর মূল্য দিয়ে "শাস্তি" দিতে চাইবেন। অতএব, একটি ভাল মডেলের কম ব্যয় হবে। যদি সমস্ত ভুল হিসাবে খারাপ হয়, তবে আপনার ব্যয় সংবেদনশীল মডেলগুলি কেন ব্যবহার করা উচিত তার কোনও আসল কারণ নেই।
এটি লক্ষণীয়ও গুরুত্বপূর্ণ যে ব্যয়-সংবেদনশীল মডেলগুলি ব্যবহার ভারসাম্যহীন ডেটাসেটগুলির জন্য নির্দিষ্ট নয়। আপনার ডেটাও যদি পুরোপুরি সুষম হয় তবে আপনি এই জাতীয় মডেলগুলি ব্যবহার করতে পারেন।
- এটি ডেটার সত্যিকারের বিতরণকে উপস্থাপন করে না
কখনও কখনও আপনার ডেটা "ভারসাম্যহীন" হয় কারণ এটি ডেটার সত্যিকারের বিতরণকে উপস্থাপন করে না। এক্ষেত্রে আপনাকে সাবধানতা অবলম্বন করতে হবে, কারণ আপনার কাছে একটি শ্রেণির "অনেকগুলি" উদাহরণ এবং অন্যটির "খুব কম" উদাহরণ রয়েছে এবং তাই আপনার নিজের মডেলটি একটির উপরের চেয়ে বেশি / আন্ডারফিট না বজায় রয়েছে তা নিশ্চিত করতে হবে need এই ক্লাসের।
এটি ব্যয় ব্যবহারের চেয়ে পৃথক কারণ এটির ভুলটি অন্যটির চেয়ে খারাপ হওয়ার কারণ নাও হতে পারে। যা ঘটবে তা হ'ল আপনি পক্ষপাতদুষ্ট থাকবেন এবং অদৃশ্য ডেটাতে আপনার প্রশিক্ষিত ডেটার মতো বিতরণ না থাকলে এটি আপনার মডেলের পক্ষে উপকারী হবে না।
বলি যে আমি আপনাকে প্রশিক্ষণের ডেটা দিই এবং আপনার লক্ষ্যটি অনুমান করা হয় যে কোনও কিছু লাল বা নীল। আপনি নীল লাল বা নীল রঙের জন্য নীল ভুল করেছেন কিনা তা খুব বেশি পার্থক্য রাখে না। আপনার প্রশিক্ষণের ডেটাতে 90% লাল দৃষ্টান্ত রয়েছে যেখানে বাস্তব জীবনে কেবলমাত্র 10% সময় ঘটে। আপনার মডেলটিকে আরও ভাল করার জন্য আপনাকে এটিকে মোকাবেলা করতে হবে।