শ্রেণি ভারসাম্যহীন অধীনে যথার্থ-পুনর্বিবেচনা বক্ররেখার জন্য অনুকূলকরণ


30

আমার একটি শ্রেণিবিন্যাস টাস্ক রয়েছে যেখানে আমার কাছে অনেকগুলি ভবিষ্যদ্বাণী রয়েছে (যার মধ্যে একটি সর্বাধিক তথ্যপূর্ণ), এবং আমি আমার শ্রেণিবদ্ধ নির্মানের জন্য মার্স মডেলটি ব্যবহার করছি (আমি কোনও সাধারণ মডেলের প্রতি আগ্রহী, এবং উদাহরণস্বরূপ গ্ল্যাম ব্যবহার করা হবে) ঠিক আছে)। প্রশিক্ষণ ডেটাতে এখন আমার কাছে বিশাল শ্রেণির ভারসাম্যহীনতা রয়েছে (প্রতিটি ইতিবাচক নমুনার জন্য প্রায় 2700 নেতিবাচক নমুনা)। তথ্য পুনরুদ্ধারের কাজগুলির মতো, আমি শীর্ষস্থানীয় ইতিবাচক পরীক্ষার নমুনাগুলি সম্পর্কে ভবিষ্যদ্বাণী সম্পর্কে আরও উদ্বিগ্ন। এই কারণে, যথার্থ রিক্যাল রেখাঙ্কনগুলি সম্পর্কে আমার জন্য গুরুত্বপূর্ণ।

প্রথমত, আমি কেবল ক্লাসের ভারসাম্যহীনতা বজায় রেখে আমার প্রশিক্ষণের ডেটাতে মডেলটিকে প্রশিক্ষণ দিয়েছি। আমি আমার প্রশিক্ষিত মডেলটি লাল রঙে এবং নীল রঙের মধ্যে সবচেয়ে গুরুত্বপূর্ণ ইনপুটটি ভিজ্যুয়ালাইজ করি।

ভারসাম্যহীন ডেটা সম্পর্কে প্রশিক্ষণ, ভারসাম্যহীন ডেটার উপর মূল্যায়ন :

ভারসাম্যহীন প্রশিক্ষণের জন্য পিআর ভারসাম্যহীন প্রশিক্ষণের জন্য আরওসি

ক্লাসের ভারসাম্যহীনতা মডেলটিকে ছুঁড়ে ফেলছে এই ভেবে যে শীর্ষস্থানীয় পজিটিভ নমুনাগুলি শেখা পুরো ডেটা সেটের একটি ক্ষুদ্র অংশ, তাই আমি একটি ভারসাম্য প্রশিক্ষণের ডেটা সেট পাওয়ার জন্য ইতিবাচক প্রশিক্ষণ পয়েন্টগুলিকে উত্সাহিত করেছি। আমি যখন ভারসাম্য প্রশিক্ষণের সেটটিতে পারফরম্যান্সের পরিকল্পনা করি তখন আমি ভাল পারফরম্যান্স পাই। উভয় PR এবং আরওসি বক্ররেখায়, আমার প্রশিক্ষিত মডেল ইনপুটগুলি আরও ভাল করে তোলে।

(আপস্যাম্পলড) ভারসাম্যপূর্ণ ডেটা সম্পর্কে প্রশিক্ষণ, ভারসাম্যপূর্ণ ডেটা (মূল্যায়ন) -এও মূল্যায়ন:

ভারসাম্যহীন প্রশিক্ষণের জন্য পিআর, ভারসাম্যযুক্ত ডেটাসেটে দৃশ্যমান ভারসাম্যপূর্ণ প্রশিক্ষণের জন্য আরওসি, ভারসাম্যহীন ডেটাসেটে দৃশ্যমান

তবে আমি যদি ভারসাম্যপূর্ণ ডেটা সম্পর্কে প্রশিক্ষিত এই মডেলটি ব্যবহার করি তবে আসল, ভারসাম্যহীন প্রশিক্ষণের সেটটি সম্পর্কে ভবিষ্যদ্বাণী করতে, আমি এখনও পিআর বক্ররে খারাপ পারফরম্যান্স পেয়েছি।

মূল ভারসাম্যহীন ডেটা সম্পর্কে মূল্যায়ন (ভারসাম্পকৃত) উপর প্রশিক্ষণ:

ভারসাম্যযুক্ত প্রশিক্ষণের জন্য পিআর, আসল, ভারসাম্যহীন ডেটাসেটে ভিজ্যুয়ালাইজ করা ভারসাম্যযুক্ত প্রশিক্ষণের জন্য আরওসি, আসল, ভারসাম্যহীন ডেটাসেটে ভিজ্যুয়ালাইজ করা

সুতরাং আমার প্রশ্নগুলি হ'ল:

  1. শ্রেণীর ভারসাম্যহীনতার কারণে আরওসি বক্ররেখা দেখায় যে কারণে পিআর বক্রের দৃশ্যায়ন আমার প্রশিক্ষিত মডেল (লাল) এর নিকৃষ্ট কর্মক্ষমতা দেখায়?
  2. পুনর্নির্মাণ / আপ-স্যাম্পলিং / ডাউন-স্যাম্পলিং পদ্ধতির সমাধান কী উচ্চতর নির্ভুলতা / কম স্মরণীয় অঞ্চলে ফোকাস করতে প্রশিক্ষণকে বাধ্য করতে বাধ্য করে?
  3. উচ্চ নির্ভুলতা / কম স্মরণীয় অঞ্চলে প্রশিক্ষণ কেন্দ্রীকরণের অন্য কোনও উপায় আছে?

প্রশিক্ষণ সংস্থায় কোন ব্যবস্থা গ্রহণ করা হয় এবং কোনটি আউট ডেটা রাখে তা পরিষ্কার করতে আপনি নিজের প্রশ্নটি সম্পাদনা করতে পারেন?
জ্যাক ট্যানার 24'12

@ জ্যাকট্যানার, আপাতত প্রশিক্ষণের সেটটিতে সমস্ত কিছু গণনা করা হয়েছে। যেহেতু মডেলটিতে অনেকগুলি পরামিতি নেই, এবং প্রশিক্ষণ সেটে নমুনার সংখ্যা বিশাল, আমি ওভারফিটিংয়ের বিষয়ে খুব বেশি চিন্তা করি না। এ ছাড়া, আমি নিশ্চিত হতে চাই যে পরীক্ষার সেটটিতে আশা করার আগে আমি প্রশিক্ষণ সেটে ভাল পারফরম্যান্স পাচ্ছি।
হাইব্যান্ডউইথথ

বিভিন্ন রিক্যাল স্তরে যথার্থতা মূল্যায়নের জন্য আপনি আপনার শেখার অ্যালগরিদমকে কোন নোব নিয়ন্ত্রণ করছেন? আপনি কি বৈশিষ্ট্য সংমিশ্রণ এবং রূপান্তরগুলি সহ আপনার বৈশিষ্ট্য সেটটি প্রসারিত করার চেষ্টা করেছেন?
জ্যাক ট্যানার

@ জ্যাকট্যানার, আমার কাছে যে মডেলটি রয়েছে (লজিট ফাংশন সহ মার্স) লজিস্টিক রিগ্রেশনের অনুরূপ 0 থেকে 1 এর মধ্যে আউটপুট দেয়। এটি মূলত একই, তবে এতে আরও কয়েকটি বৈশিষ্ট্য রয়েছে। বিভিন্ন স্মরণে যথাযথতা পেতে, আমি কেবল বিভিন্ন পয়েন্টে থ্রেশহোল্ডগুলি সেট করি। আমি কেবলমাত্র একটি র‌্যাঙ্কড তালিকা থেকে পিআর বা আরওসি গণনা করার জন্য স্ট্যান্ডার্ড উপায়টি ব্যবহার করি।
হাইব্যান্ডউইথথ

উত্তর:


15
  1. আরওসি বক্ররেখা ভারসাম্য রক্ষার ক্ষেত্রে সংবেদনশীল; ফাউসেট (2004) "আরওসি গ্রাফগুলি: গবেষকদের জন্য নোটস এবং ব্যবহারিক বিবেচনা" দেখুন।
  2. নিম্ন-ফ্রিকোয়েন্সি শ্রেণির আপ-স্যাম্পলিং একটি যুক্তিসঙ্গত পন্থা।
  3. শ্রেণি ভারসাম্যহীনতা মোকাবেলার আরও অনেক উপায় রয়েছে। বুস্টিং এবং ব্যাগিং দুটি কৌশল যা মনে আসে। এটি প্রাসঙ্গিক সাম্প্রতিক গবেষণার মতো বলে মনে হচ্ছে: গোলমাল এবং ভারসাম্যহীন ডেটার সাথে বুস্টিং এবং ব্যাগিং কৌশলগুলির তুলনা করা

পিএস ঝরঝরে সমস্যা; আমি এটি দেখতে কিভাবে জানতে চাই।


1

সাম্প্রতিক একটি গবেষণা " ভারসাম্যহীন ডেটা সহ শ্রেণিবিন্যাসের অন্তর্দৃষ্টি: গবেষণামূলক ফলাফল এবং উপাত্তের অভ্যন্তরীণ বৈশিষ্ট্যগুলি ব্যবহারের বর্তমান প্রবণতা " ভারসাম্যহীন ডেটাতে উন্নত শ্রেণিবিন্যাসের তিনটি পদ্ধতির তুলনা করে:

  • ডেটা নমুনা (প্রশ্নে প্রস্তাবিত হিসাবে)
  • অ্যালগরিদম পরিবর্তন
  • সংবেদনশীল শেখার ব্যয়

1

আমি এই সত্যের দিকে দৃষ্টি আকর্ষণ করতে চেয়েছিলাম, শেষ 2 টি পরীক্ষাগুলি আসলে ALMOST THE Same ডেটাসেটে একই মডেলটি ব্যবহার করছে। পারফরম্যান্সের পার্থক্যটি মডেল পার্থক্য নয়, এটি বৈধতা ডেটাसेटের বিভিন্ন বিতরণ এবং ব্যবহৃত নির্দিষ্ট মেট্রিক্সের বৈশিষ্ট্যগুলি দ্বারা ব্যাখ্যা করা হয়েছে - যথাযথতা এবং পুনরায় স্মরণ করা, যা সেই বিতরণের উপর অত্যন্ত নির্ভর করে। এই বিষয়টিকে আরও বিস্তারিতভাবে জানাতে, আপনি যদি আপনার প্রাথমিক বৈধতা ডেটাसेट থেকে এক্স স্বতন্ত্র এন্ট্রি নেন এবং সংখ্যালঘু শ্রেণীর উপরে উঠে আসা ডেটাসেটের প্রতিলিপি তৈরি করেন, তবে আপনার মডেল সেই এক্স এক্সগুলির জন্য একই পূর্বাভাস, আপসেল্ড এবং ভারসাম্যহীন উভয় ক্ষেত্রেই সঠিক বা ভুল হিসাবে তৈরি করবে বৈধতা ডেটাসেট। পার্থক্যটি হ'ল প্রতিটি মিথ্যা পজিটিভের জন্য প্রাথমিক ডেটাসেটে কম সত্য ধনাত্মক হবে (সুতরাং নিম্ন নির্ভুলতা) এবং ভারসাম্যযুক্ত ডেটাসেটে আরও সত্য ধনাত্মক (কেবলমাত্র সাধারণভাবে ডেটাসেটে আরও ইতিবাচক উদাহরণ রয়েছে এই কারণে) । এ কারণেই বলা হয় যথার্থতা এবং পুনরুদ্ধার স্কিউ সংবেদনশীল। অন্যদিকে, যেমন আপনার পরীক্ষাগুলি চিত্রিত করে, আরওসি পরিবর্তন হয় না। এটির সংজ্ঞাটিও পাশাপাশি লক্ষ্য করা যায়। আর এই কারণেই বলা হয় যে আরওসি স্কিউ সম্পর্কে সংবেদনশীল নয়।

আমার নিজের কাছে 2 এবং 3 পয়েন্টগুলির জন্য এখনও ভাল উত্তর নেই কারণ আমি সেগুলিকে খুঁজছি :)


0

ধরে নিচ্ছি আপসাম্পলড পজিটিভ নমুনাগুলির "মূল সেট" এর মতো "একই বিতরণ" রয়েছে। ধনাত্মক নমুনার সংখ্যা বাড়ার সাথে সাথে কয়েকটি পরিবর্তন ঘটে

1) "সমস্ত প্রান্তিকের" জন্য ট্রুপোসিটিভসের (টিপি) সংখ্যা বৃদ্ধি পায় এবং ফলস্বরূপ, সমস্ত প্রান্তিকের জন্য অনুপাত টিপি / (টিপি + এফপি) এবং টিপি / (টিপি + এফএন) বৃদ্ধি পায়। যাতে পিআরসির আওতাধীন অঞ্চল বাড়ছে।

2) প্রত্যাশিত নির্ভুলতা, "বোবা" মডেলটির যথার্থতাও বলা হয়, 1 27/2700 (মূল সেটে) থেকে বেড়ে ~ 1/2 ("আদর্শ" ভারসাম্যের ক্ষেত্রে) বেড়ে যায়। আপনার মডেলটি আরও ভাল পারফরম্যান্স ধরে নিলে "বোবা" মডেলটি বোঝায় যে বক্ররেখার ক্ষেত্রফলটি "আসল সেট" এ 0.00037 এর চেয়ে বেশি এবং আদর্শ ভারসাম্যপূর্ণ সেটে 0.5 এর বেশি হবে।

3) মডেলটিকে আপস্কেলড ডেটাসেটের প্রশিক্ষণ দেওয়ার সময়, কিছু মডেল ইতিবাচক নমুনাগুলিকে "অত্যধিক মানিয়ে নিতে" পারে।

আরওসি বক্ররেখা সম্পর্কিত, আরওসি বক্ররেখা শ্রেণিবণ্টনের বিভিন্নতা থেকে খুব সামান্য প্রভাব দেখায় পরিচিত (আপস্লিং এফপিআরের উপর খুব সামান্য প্রভাব ফেলেছে, আপনি টিপিআর এর কিছুটা প্রভাব দেখতে পারেন)।

উচ্চ নির্ভুলতা / কম স্মরণীয় অঞ্চলে ফোকাস করার ক্ষেত্রে, আপনি একটি ব্যয় ক্রিয়াকলাপের ক্ষেত্রে শ্রদ্ধার সাথে অনুকূল করতে পারেন যেখানে মিথ্যা ধনাত্মককে আরও বেশি জরিমানা করা হয় তবে ভুয়া gণাত্মক হয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.