আমার একটি শ্রেণিবিন্যাস টাস্ক রয়েছে যেখানে আমার কাছে অনেকগুলি ভবিষ্যদ্বাণী রয়েছে (যার মধ্যে একটি সর্বাধিক তথ্যপূর্ণ), এবং আমি আমার শ্রেণিবদ্ধ নির্মানের জন্য মার্স মডেলটি ব্যবহার করছি (আমি কোনও সাধারণ মডেলের প্রতি আগ্রহী, এবং উদাহরণস্বরূপ গ্ল্যাম ব্যবহার করা হবে) ঠিক আছে)। প্রশিক্ষণ ডেটাতে এখন আমার কাছে বিশাল শ্রেণির ভারসাম্যহীনতা রয়েছে (প্রতিটি ইতিবাচক নমুনার জন্য প্রায় 2700 নেতিবাচক নমুনা)। তথ্য পুনরুদ্ধারের কাজগুলির মতো, আমি শীর্ষস্থানীয় ইতিবাচক পরীক্ষার নমুনাগুলি সম্পর্কে ভবিষ্যদ্বাণী সম্পর্কে আরও উদ্বিগ্ন। এই কারণে, যথার্থ রিক্যাল রেখাঙ্কনগুলি সম্পর্কে আমার জন্য গুরুত্বপূর্ণ।
প্রথমত, আমি কেবল ক্লাসের ভারসাম্যহীনতা বজায় রেখে আমার প্রশিক্ষণের ডেটাতে মডেলটিকে প্রশিক্ষণ দিয়েছি। আমি আমার প্রশিক্ষিত মডেলটি লাল রঙে এবং নীল রঙের মধ্যে সবচেয়ে গুরুত্বপূর্ণ ইনপুটটি ভিজ্যুয়ালাইজ করি।
ভারসাম্যহীন ডেটা সম্পর্কে প্রশিক্ষণ, ভারসাম্যহীন ডেটার উপর মূল্যায়ন :
ক্লাসের ভারসাম্যহীনতা মডেলটিকে ছুঁড়ে ফেলছে এই ভেবে যে শীর্ষস্থানীয় পজিটিভ নমুনাগুলি শেখা পুরো ডেটা সেটের একটি ক্ষুদ্র অংশ, তাই আমি একটি ভারসাম্য প্রশিক্ষণের ডেটা সেট পাওয়ার জন্য ইতিবাচক প্রশিক্ষণ পয়েন্টগুলিকে উত্সাহিত করেছি। আমি যখন ভারসাম্য প্রশিক্ষণের সেটটিতে পারফরম্যান্সের পরিকল্পনা করি তখন আমি ভাল পারফরম্যান্স পাই। উভয় PR এবং আরওসি বক্ররেখায়, আমার প্রশিক্ষিত মডেল ইনপুটগুলি আরও ভাল করে তোলে।
(আপস্যাম্পলড) ভারসাম্যপূর্ণ ডেটা সম্পর্কে প্রশিক্ষণ, ভারসাম্যপূর্ণ ডেটা (মূল্যায়ন) -এও মূল্যায়ন:
তবে আমি যদি ভারসাম্যপূর্ণ ডেটা সম্পর্কে প্রশিক্ষিত এই মডেলটি ব্যবহার করি তবে আসল, ভারসাম্যহীন প্রশিক্ষণের সেটটি সম্পর্কে ভবিষ্যদ্বাণী করতে, আমি এখনও পিআর বক্ররে খারাপ পারফরম্যান্স পেয়েছি।
মূল ভারসাম্যহীন ডেটা সম্পর্কে মূল্যায়ন (ভারসাম্পকৃত) উপর প্রশিক্ষণ:
সুতরাং আমার প্রশ্নগুলি হ'ল:
- শ্রেণীর ভারসাম্যহীনতার কারণে আরওসি বক্ররেখা দেখায় যে কারণে পিআর বক্রের দৃশ্যায়ন আমার প্রশিক্ষিত মডেল (লাল) এর নিকৃষ্ট কর্মক্ষমতা দেখায়?
- পুনর্নির্মাণ / আপ-স্যাম্পলিং / ডাউন-স্যাম্পলিং পদ্ধতির সমাধান কী উচ্চতর নির্ভুলতা / কম স্মরণীয় অঞ্চলে ফোকাস করতে প্রশিক্ষণকে বাধ্য করতে বাধ্য করে?
- উচ্চ নির্ভুলতা / কম স্মরণীয় অঞ্চলে প্রশিক্ষণ কেন্দ্রীকরণের অন্য কোনও উপায় আছে?