"বিরল" ইভেন্টগুলির সাথে তদারকি করা শেখা, যখন বিরলতার কারণে প্রচুর পরিমাণে পাল্টা-বাস্তব ঘটনা ঘটে


13

মনে করুন আপনি কোনও বাজারে ক্রেতা এবং বিক্রেতার মধ্যে "ম্যাচ" পর্যবেক্ষণ করেছেন। আপনি ক্রেতা এবং বিক্রেতার উভয়ের বৈশিষ্ট্যও পর্যবেক্ষণ করতে পারেন যা আপনি ভবিষ্যতের ম্যাচগুলির পূর্বাভাস দিতে এবং বাজারের উভয় পক্ষেই সুপারিশ করতে ব্যবহার করতে চান।

সরলতার জন্য, ধরে নিন এন ক্রেতা এবং এন বিক্রেতারা আছেন এবং প্রতিটি মিল খুঁজে পান। এন ম্যাচ এবং (এন -১) (এন -১) নন-ম্যাচ রয়েছে। সর্ব-অন্তর্ভুক্ত প্রশিক্ষণ ডেটাসেটে এন + (এন -1) * (এন -1) পর্যবেক্ষণ রয়েছে, যা প্রতিরোধমূলকভাবে বড় হতে পারে। দেখে মনে হবে এলোমেলোভাবে (N-1) (N-1) নন-ম্যাচ থেকে নমুনা নেওয়া এবং সেই হ্রাসকৃত ডেটা সম্পর্কে একটি অ্যালগরিদম প্রশিক্ষণ করা আরও দক্ষ হতে পারে। আমার প্রশ্নগুলি হ'ল:

(1) কোন প্রশিক্ষণ ডেটাসেট তৈরির জন্য অ-ম্যাচগুলি থেকে নমুনা নেওয়া কি এই সমস্যার সাথে মোকাবিলা করার যুক্তিসঙ্গত উপায়?

(২) যদি (১) সত্য হয়, তবে (এন -১) (এন -১) এর কত অংশকে অন্তর্ভুক্ত করার সিদ্ধান্ত নেওয়ার জন্য কোন কঠোর উপায় আছে?

উত্তর:


11

যদি আমি সঠিকভাবে বুঝতে পারি তবে আপনার একটি দুটি শ্রেণির শ্রেণিবদ্ধকরণ সমস্যা রয়েছে, যেখানে ইতিবাচক শ্রেণি (ম্যাচগুলি) খুব কম। অনেক শ্রেণিবদ্ধ ব্যক্তি এই ধরণের শ্রেণির ভারসাম্যহীনতার সাথে লড়াই করে এবং আরও ভাল পারফরম্যান্স পাওয়ার জন্য সংখ্যাগরিষ্ঠ শ্রেণীর উপ-নমুনা নেওয়া সাধারণ অভ্যাস, সুতরাং প্রথম প্রশ্নের উত্তর "হ্যাঁ"। তবে, আপনি যদি অত্যধিক সাব-নমুনা করেন, আপনি এমন একটি শ্রেণিবদ্ধের সাথে সমাপ্ত হবেন যা সংখ্যালঘু ধনাত্মক শ্রেণিকে অত্যধিক পূর্বাভাস দেয়, তাই করণীয় সর্বোত্তম হ'ল সাব-স্যাম্পলিং রেশনটি সর্বাধিক সম্পাদন করতে বেছে নেওয়া, সম্ভবত ক্রস- বৈধতা ত্রুটি যেখানে পরীক্ষার ডেটা উপ-নমুনা দেওয়া হয়নি তাই আপনি কার্যক্ষম পারফরম্যান্সের একটি ভাল ইঙ্গিত পান।

আপনার যদি সম্ভাব্য শ্রেণিবদ্ধকারী থাকে, যা ক্লাস মেম্বারশিপের সম্ভাব্যতার একটি অনুমান দেয়, আপনি প্রশিক্ষণের সেট এবং ক্রিয়াকলাপে শ্রেণীর ফ্রিকোয়েন্সিগুলির মধ্যে পার্থক্যটি পূরণ করার জন্য আউটপুট পরবর্তী আরও ভালভাবে যেতে পারেন। আমি সন্দেহ করি যে কিছু শ্রেণিবদ্ধকারীদের জন্য, সর্বোত্তম পদ্ধতি ক্রস-বৈধতা ত্রুটিটি অনুকূলকরণের মাধ্যমে সাব-স্যাম্পলিং অনুপাত এবং আউটপুট সংশোধন উভয়কেই অনুকূলিত করে তোলে।

সাব-স্যাম্পলিংয়ের পরিবর্তে কিছু শ্রেণিবদ্ধের জন্য (যেমন এসভিএম) আপনি ধনাত্মক এবং নেতিবাচক নিদর্শনগুলিতে বিভিন্ন ওজন দিতে পারেন। আমি এটি সাব-স্যাম্পলিংয়ের চেয়ে বেশি পছন্দ করি কারণ এর অর্থ নির্দিষ্ট ব্যবহৃত সাব-নমুনার কারণে ফলাফলের কোনও পরিবর্তনশীলতা নেই। যেখানে এটি সম্ভব নয়, ব্যাগযুক্ত শ্রেণিবদ্ধকারী করতে বুটস্ট্র্যাপিং ব্যবহার করুন, যেখানে প্রতিটি পুনরাবৃত্তিতে সংখ্যাগরিষ্ঠ শ্রেণির একটি পৃথক উপ-নমুনা ব্যবহৃত হয়।

অন্য একটি জিনিস আমি বলব যে সাধারণত যেখানে একটি বৃহত শ্রেণির ভারসাম্যহীনতা থাকে সেখানে মিথ্যা নেতিবাচক ত্রুটি এবং মিথ্যা ধনাত্মক ত্রুটি সমানভাবে খারাপ হয় না এবং এটি শ্রেণিবদ্ধ নকশায় তৈরি করা ভাল ধারণা (যা উপস্থাপিত দ্বারা সম্পন্ন করা যায়) - প্রতিটি শ্রেণীর অন্তর্ভুক্ত নমুনা বা ওজন নিদর্শন)।


3
(+1) তবে আমি মনে করি র‌্যাঙ্কিংয়ের লক্ষ্য (পরিমাপ: এউসি) এবং দুটি শ্রেণি পৃথককরণ (পরিমাপ: নির্ভুলতা) এর মধ্যে একটিকে আলাদা করতে হবে। পূর্বের ক্ষেত্রে, নায়েভ বেয়েসের মতো সম্ভাব্য ক্লাসফায়ার দেওয়া, ভারসাম্যহীনতা কম ভূমিকা পালন করে, আমি মনে করি। বা এই ক্ষেত্রে কেউ কি চিন্তিত হওয়া উচিত? আরেকটি প্রশ্ন: "পোস্ট-প্রসেস আউটপুট" বলতে কী বোঝ? স্কোরকে প্রকৃত সম্ভাবনায় রূপান্তর করা?
স্টিফেন

@ স্টেফেন আমার অন্তর্নিহিততা হ'ল শ্রেণি ভারসাম্যহীন সমস্যা র‌্যাঙ্কিংয়ের ক্ষেত্রে কোনও সমস্যা কম তবে এটি সম্পূর্ণরূপে সরে যাবে না (আমি এই সমস্যার উপর একটি কাগজে কাজ করছি, সুতরাং এটি সমাধানের উপযুক্ত বিষয়)। পোস্ট-প্রসেসিংয়ের মাধ্যমে, আমি আউটপুটগুলি অপারেশনাল এবং ট্রেনিং সেট শ্রেণীর ফ্রিকোয়েন্সি অনুপাত দ্বারা গুণিত করেছিলাম এবং তারপরে পুনরায় সাধারণকরণ করি যাতে সমস্ত সম্ভাব্য ফলাফলের সম্ভাবনাগুলি এক হয়ে যায়। তবে অনুশীলনে প্রকৃত অনুকূল স্কেলিং ফ্যাক্টরটি কিছুটা আলাদা হওয়ার সম্ভাবনা রয়েছে - সুতরাং XVAL এর সাথে অনুকূল করুন (তবে এখনও পুনরায় স্বাভাবিক করুন)।
ডিকরান মার্শুপিয়াল

1

সম্পর্কিত (1)। আপনি যদি অর্থবহ ফলাফল চান তবে আপনাকে ইতিবাচক এবং নেতিবাচক পর্যবেক্ষণ রাখতে হবে।
(২) আপনার ডেটাতে কোনও প্রিরিচি না থাকলে ইউনিফর্ম বিতরণের চেয়ে সাবমলিংয়ের কোনও বুদ্ধিমান পদ্ধতি নেই।


ধন্যবাদ উগো - সম্মত, প্রশিক্ষণের ডেটাতে অবশ্যই ম্যাচ এবং অ-মিল দুটি হওয়া দরকার। (এন -১) (এন -১) নন-ম্যাচের কতগুলি প্রয়োজন তা নিয়ে প্রশ্ন। অংশ (2) এর জন্য, আমি অবশ্যই সমস্ত পর্যবেক্ষণের তুলনায় ডাব্লু / সমান ওজনের নমুনা করব।
জন হর্টন

ভাল যদি আপনার ডেটাতে অ্যাপ্রোরি না থাকে তবে ডেটা নমুনার কোনও যুক্তিসঙ্গত উপায় নেই। সুতরাং আপনাকে অভিন্ন নমুনা করতে হবে এবং এই ক্ষেত্রে আপনি যত বেশি নেবেন তত ভাল। স্যাম্পলিংয়ের মাধ্যমে প্রবর্তিত ত্রুটিটি আপনি অনুমান করতে পারতেন, তবে আপনাকে এই বিষয়টিতে সহায়তা করতে আমরা এখানে তথ্য মিস করছি।
ওগো

আমার কাছে মনে হচ্ছে ত্রুটিটি ব্যবহৃত শ্রেণিবদ্ধের ধরণের উপর নির্ভর করবে। যাইহোক আপনি সর্বদা বিভিন্ন নমুনা হারে পূর্বাভাস দেওয়ার চেষ্টা করতে পারেন এবং এমন একটি প্রান্তিক স্থির করতে পারেন যেখানে আপনি মনে করেন ত্রুটিটি ত্রুটিযুক্ত বলে সন্তোষজনক।
উগো
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.