ভারসাম্যহীন শ্রেণী - মিথ্যা নেতিবাচকতা কীভাবে হ্রাস করা যায়?

11

আমার কাছে একটি ডেটাসেট রয়েছে যাতে বাইনারি শ্রেণির বৈশিষ্ট্য রয়েছে। ক্লাস +1 (ক্যান্সার ধনাত্মক) সহ 623 টি উদাহরণ এবং শ্রেণি -1 (ক্যান্সার নেতিবাচক) সহ 101,671 টি দৃষ্টান্ত রয়েছে।

আমি বিভিন্ন অ্যালগরিদম চেষ্টা করেছি (নাইভ বেইস, র‌্যান্ডম ফরেস্ট, এওডিই, সি 4.5) এবং তাদের সকলের কাছে অগ্রহণযোগ্য মিথ্যা নেতিবাচক অনুপাত রয়েছে। র‌্যান্ডম ফরেস্টে সর্বাধিক সামগ্রিক পূর্বাভাস নির্ভুলতা (99.5%) এবং সর্বনিম্ন মিথ্যা নেতিবাচক অনুপাত রয়েছে, তবে এখনও positive৯% ধনাত্মক ক্লাস মিস করে (যেমন ম্যালিগন্যান্ট টিউমারগুলির 79৯% সনাক্ত করতে ব্যর্থ হয়)।

কোনও ধারণা কীভাবে আমি এই পরিস্থিতির উন্নতি করতে পারি?

ধন্যবাদ!

— user798275
সূত্র

আপনি এই প্রশ্নের দিকে একবার নজর রাখতে পারেন যেখানে আমি এই সমস্যার জন্য আকর্ষণীয় উত্তর পেয়েছি। শুভেচ্ছা

— মাইকেল Hooreman

9

শ্রেণির ভারসাম্যহীনতা একটি খুব সাধারণ সমস্যা। আপনি হয় ধনাত্মক বর্গকে (বা নেতিবাচক নেতিবাচক) নমুনা বা শ্রেণীর ওজন যুক্ত করতে পারেন।

এই ক্ষেত্রে অন্য একটি বিষয় মনে রাখবেন যে নির্ভুলতা এখানে খুব দরকারী মেট্রিক নয়। আপনি এওসি বা এফ 1 স্কোর বিবেচনা করতে পারেন ।

আপনার সিদ্ধান্তের দোরগোড়াকে পরিবর্তন করা আপত্তিজনক বলে মনে হতে পারে তবে স্পষ্টতই বৃদ্ধি পাবে (এই ক্ষেত্রে সম্ভবত মারাত্মকভাবে) বর্ধিত মিথ্যা ধনাত্মক (যদিও এফপিগুলি চিকিত্সা নির্ণয়ের ক্ষেত্রে এফএনগুলির মতো খারাপ নয়, যদি পরীক্ষাগুলি নিরপেক্ষ ব্যয়বহুল না হয়)।

শ্রেণীর ভারসাম্যহীনতার ক্ষেত্রে বিকল্পগুলির আরও গভীর-বিশ্লেষণ এখানে সরবরাহ করা হয়েছে ।

— jamesmf
সূত্র

3

যদিও বাস্তবে উত্তরটি সর্বদা trueবা হয় false, আপনি নিজের শ্রেণীর বৈশিষ্ট্যগুলি লেবেলগুলি নয় তবে ভাসমান পয়েন্ট সংখ্যাগুলি তৈরি করতে পারেন, যেমন 1.0 এবং 0.0 (বা 100 এবং 0)। অর্থাৎ, আপনি এটি ফ্রেম করতে পারেন এটি একটি রিগ্রেশন সমস্যা, শ্রেণিবিন্যাসের সমস্যা নয়।

তারপরে ভবিষ্যদ্বাণী করা আউটপুট একইভাবে সেই বর্ণালীতে সংখ্যা হবে, অর্থাৎ সম্ভাব্যতাগুলি লেবেল নয়। আপনার বর্তমান বাস্তবায়নটি মূলত 0.5 এর প্রান্তিকের সহিত একটি রিগ্রেশন মডেলের সমতুল্য।

এই জাতীয় আউটপুট সহ, আপনি বা আপনার ক্লায়েন্ট একটি প্রান্তিক সংজ্ঞা নির্ধারণ করতে পারবেন যা গ্রহণযোগ্য (যেমন 0.3)। অবশ্যই তখন আরও মিথ্যা ইতিবাচকতা থাকবে তবে কিছু অ্যাপ্লিকেশনগুলির জন্য যেমন ক্যান্সার সনাক্তকরণ, এটি সর্বোত্তম।

ওভারস্যাম্পলিং (ধনাত্মক) বা আন্ডার স্যাম্পলিং (নেতিবাচক) এছাড়াও এটি ঠিক করার উপায়, তবে অবশ্যই বিবেচনা করে তা করা উচিত, যথাযথতা ত্যাগ করতে পারে এবং তথ্যের তৈরি এবং প্রশিক্ষণের পরে প্রান্তিকরণ সরিয়ে নেওয়ার নিয়ন্ত্রণ ত্যাগ করে।

— অ্যাডাম বিটলিংমায়ার
সূত্র

0

একটি কৌশল হিসাবে আন্ডার-ওভার-স্যাম্পলিংয়ের ইতিমধ্যে উল্লেখ করা হয়েছে তবে আমি ভেবেছিলাম যে আমি একটি সাধারণভাবে ব্যবহৃত বৈকল্পিকের দিকে ইঙ্গিত করব:

স্মোট : সিনথেটিক সংখ্যালঘু ওভার স্যাম্পলিং প্রযুক্তি

এটি ২০০২ সালে এই পত্রিকায় উপস্থাপিত হয়েছিল । বিমূর্ত থেকে একটি স্নিপেট এখানে:

এই কাগজটি দেখায় যে সংখ্যালঘু (অস্বাভাবিক) শ্রেণিকে অতিরিক্ত স্যাম্পল করার এবং সংখ্যাগরিষ্ঠ (সাধারণ) শ্রেণীর আন্ডার স্যাম্পলিংয়ের আমাদের পদ্ধতির সংমিশ্রণটি সংখ্যাগরিষ্ঠ শ্রেণির আন্ডার-স্যাম্পলিংয়ের চেয়ে আরও ভাল শ্রেণিবদ্ধ কর্মক্ষমতা (আরওসি স্পেসে) অর্জন করতে পারে।

আপনি পাইথন সহজে এটি ব্যবহার করতে পারেন ব্যবহার প্যাকেজ , যা অন্তর্ভুক্ত করা হয় contrib এর মডিউল Scikit-জানুন এবং আলাদাভাবে ইনস্টল করা আবশ্যক।imbalanced-learn

ভারসাম্যহীন-শিখাই একটি পাইথন প্যাকেজ যা ডেটাসেটগুলিতে সাধারণত শ্রেণির ভারসাম্যহীন ভারসাম্যহীনতার জন্য প্রদর্শিত বেশ কয়েকটি পুনঃ স্যাম্পলিং কৌশল সরবরাহ করে।

এই প্যাকেজে ওভার-/ আন্ডার-স্যাম্পলিংয়ের পাশাপাশি কেরাস / টেনস্রোফ্লোতে প্রবাহিত হতে পারে এমন ডেটাগুলির ব্যাচ তৈরির জন্য বিভিন্ন উপযোগের একটি সেট যুক্ত করার পদ্ধতি রয়েছে।

— n1k31t4
সূত্র