ভারসাম্যহীন ক্লাসের ওপরে / আন্ডার-স্যাম্পলিং করার সময়, সর্বাধিককরণের সঠিকতা কী ভুল সংশোধন ব্যয় হ্রাস করার থেকে পৃথক হয়?


14

প্রথমত, আমি কিছু সাধারণ বিন্যাস বর্ণনা করতে চাই যা ডেটা মাইনিং বইগুলি ভারসাম্যহীন ডেটাসেটগুলি কীভাবে মোকাবেলা করতে হবে তা ব্যাখ্যা করে ব্যবহার করে । সাধারণত মূল বিভাগটির নাম ভারসাম্যহীন ডেটাসেটস রাখা হয় এবং এগুলি এই দুটি সাব-সেকশনগুলি কভার করে: ব্যয়-সংবেদনশীল শ্রেণিবিন্যাস এবং নমুনা কৌশল।

দেখে মনে হচ্ছে যে বিরল শ্রেণীর কোনও সমস্যার মুখোমুখি আপনি ব্যয়-সংবেদনশীল শ্রেণিবদ্ধকরণ এবং নমুনা উভয়ই করতে পারেন। পরিবর্তে, আমি মনে করি যে দুর্লভ শ্রেণীর শ্রেণিবিন্যাসের লক্ষ্য এবং সেই শ্রেণীর একটি রেকর্ডের ভুল শৃঙ্খলাবদ্ধ ব্যয়বহুল হলে সেই ক্ষেত্রে ব্যয় সংবেদনশীল কৌশল প্রয়োগ করা উচিত।

অন্যদিকে, ওভার-স্যাম্পলিং এবং আন্ডার-স্যাম্পলিংয়ের মতো স্যাম্পলিং কৌশলগুলি কার্যকর হয় যদি শ্রেণিবিন্যাসের লক্ষ্য একটি নির্দিষ্ট শ্রেণীর দিকে মনোনিবেশ না করে সামগ্রিকভাবে একটি ভাল যথার্থতা হয়।

এই বিশ্বাসটি মেটাকোস্টের যুক্তি থেকে এসেছে যা শ্রেণিবদ্ধকারীকে ব্যয়বহুল সংবেদনশীল করার একটি সাধারণ উপায়: যদি কেউ বিরল শ্রেণীর একটি ভুল শংসাপত্রের ত্রুটিটিকে শাস্তি দেওয়ার জন্য কোনও শ্রেণিবদ্ধকারীকে ব্যয় সংবেদনশীল করতে চায় তবে তাকে অন্য শ্রেণীর চেয়ে বেশি নমুনা দেওয়া উচিত । মোটামুটিভাবে বলতে গেলে, শ্রেণিবদ্ধকারী অন্য শ্রেণীর সাথে খাপ খাইয়ে নেওয়ার চেষ্টা করে এবং এটি বিরল শ্রেণীর কাছে নির্দিষ্ট হয়ে যায়।

এটি বিরল শ্রেণীর অতিরিক্ত নমুনা দেওয়ার বিপরীত, এই সমস্যাটি মোকাবেলার জন্য সাধারণত পরামর্শ দেওয়া উপায়। সামগ্রিক নির্ভুলতার উন্নতি করতে বিরল শ্রেণীর ওভার স্যাম্পলিং বা অন্য শ্রেণির আন্ডার স্যাম্পলিং কার্যকর।

দয়া করে, আপনি যদি আমার চিন্তাভাবনাগুলি নিশ্চিত করেন তবে এটি দুর্দান্ত হবে।

এটি উল্লেখ করা হয়েছে, ভারসাম্যহীন ডেটাসেটের মুখোমুখি সাধারণ প্রশ্নটি হ'ল:

আমার কি এমন ডেটাসেট পাওয়ার চেষ্টা করা উচিত যা অন্যের তুলনায় অনেক বিরল রেকর্ডকে গণনা করে?

আমার উত্তরটি হ'ল আপনি যদি নির্ভুলতার সন্ধান করছেন: ঠিক আছে। আপনি এটি বিরল শ্রেণীর উদাহরণগুলি সন্ধান করে বা অন্য শ্রেণীর কিছু রেকর্ড মুছে ফেলাতে পারেন।

আপনি যদি ব্যয় সংবেদনশীল কৌশল নিয়ে বিরল শ্রেণীর দিকে মনোনিবেশ করেন তবে আমি উত্তর দেব: আপনি কেবলমাত্র আরও বিরল শ্রেণির উদাহরণ খুঁজে পেতে পারেন তবে অন্য শ্রেণীর রেকর্ডগুলি মুছবেন না। পরবর্তী ক্ষেত্রে আপনি শ্রেণিবদ্ধকারীটিকে অন্য শ্রেণীর সাথে খাপ খাইয়ে নিতে সক্ষম হবেন না এবং বিরল শ্রেণীর ভুল শ্রেণিবিন্যাস ত্রুটি বাড়তে পারে।

আপনি কি উত্তর দেবেন?


2
বিরল শ্রেণীর জন্য নতুন রেকর্ডগুলি "সন্ধান করা" অসম্ভব হতে পারে। আমি ধারণা করি যে ডেটাগুলি এইভাবে কাঠামোযুক্ত করা হয়েছে কারণ আরও বিরল-শ্রেণি-ইভেন্টগুলি তৈরি করা ব্যয়বহুল (বায়োইনফরম্যাটিকস) বা ঝুঁকিপূর্ণ (ব্যাংক loanণ) is
স্টিফেন

অবশ্যই, তবে এটি একটি সাধারণ প্রস্তাবিত সমাধান। তবে এটি সত্য যে আপনি যদি আরও বিরল শ্রেণির উদাহরণ খুঁজে পেতে পারেন তবে আপনি অন্যান্য উদাহরণগুলিও খুঁজে পেতে সক্ষম হতে পারেন। কারণ প্রশিক্ষণ সেটটি রেকর্ড মহাবিশ্বের একটি প্রতিনিধি নমুনা হওয়া উচিত। সুতরাং, আমার কাছে মনে হচ্ছে এটি ওভার স্যাম্পলিংয়ের মতো দেখাচ্ছে।
সাইমন

উত্তর:


9

এটি একটি ভাল প্রশ্ন। ব্যক্তিগতভাবে, আমার উত্তরটি হ'ল এটি কখনই ডেটা ফেলে দেওয়া বোঝায় না (যদি তা গণনাগত কারণে না হয়), যত বেশি তথ্য আপনার কাছে থাকে তত আপনার বিশ্বের মডেলটি আরও ভাল হতে পারে। অতএব, আমি পরামর্শ দেব যে আপনার কাজের জন্য উপযুক্ত পদ্ধতিতে ব্যয় কার্য সম্পাদন করা যথেষ্ট be উদাহরণস্বরূপ, আপনি যদি একটি নির্দিষ্ট বিরল শ্রেণিতে আগ্রহী হন তবে আপনি এই শ্রেণীর ভুল শংসাপত্রকে আরও বেশি ব্যয় করতে পারেন; আপনি যদি ভারসাম্য পরিমাপের প্রতি আগ্রহী হন তবে ভারসাম্যযুক্ত ত্রুটি হারের মতো (প্রতিটি শ্রেণীর ত্রুটির গড়) বা ম্যাথিউস সহসম্পাদন সহগ যথাযথ; আপনি শুধুমাত্র সামগ্রিক শ্রেণীবিন্যাস ত্রুটি, ঐতিহ্যগত আগ্রহী 0-1 ক্ষতি

অ্যাক্টিভ লার্নিং ব্যবহার করা সমস্যার একটি আধুনিক পদ্ধতির। উদাহরণস্বরূপ, হোসপিডেলস এট আল (২০১১) "বিরল শ্রেণি সন্ধান করা: জেনারেটরি এবং ডিসক্রিমেন্টিভ মডেলগুলির সাথে অ্যাক্টিভ লার্নিং, নলেজ এবং ডেটা ইঞ্জিনিয়ারিং সম্পর্কিত আইইইই লেনদেন, (টিকেডিডি ২০১১) । তবে আমি বিশ্বাস করি যে এই পদ্ধতিগুলি এখনও তুলনামূলকভাবে কম পরিপক্ক।


আকর্ষণীয় মেটথিউজকে একের ক্ষেত্রে ভারসাম্যপূর্ণ পরিমাপের প্রয়োজন হয় t তবে, প্রদত্ত যে আমরা কোনও রেকর্ড মুছতে চাই না, ব্যয় কার্যক্রমে কোনও নমুনা বা পরিবর্তন সম্পাদন করার আগে, আপনি কি ডেটাसेटকে বিরল শ্রেণীর উদাহরণ যুক্ত করে ভারসাম্য বজায় রাখবেন? আমি মনে করি উত্তরটি কোনও হতে পারে। কারণ যতক্ষণ আপনি বিরল শ্রেণীর উদাহরণগুলি সন্ধান করেন ততক্ষণ আপনি অন্যান্য উদাহরণগুলি খুঁজে পেতে পারেন। সুতরাং, একটি ভাল সুষম পরিমাপ বা আরও ভাল বিরল শ্রেণীর পারফরম্যান্স পরিমাপ (উদাহরণস্বরূপ এফ-পরিমাপ) পেতে আমি তথ্য সংগ্রহের পর্বের পরে কেবল কোনও প্রযুক্তি (যেমন ব্যয়ের নমুনা বা মোড) সম্পাদন করব। তুমি কি একমত?
সাইমন

সম্মত, এর মতো কোনও ক্রিয়াকলাপ তথ্য সংগ্রহের পর্যায়ে পরে করা উচিত।
tdc
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.