অত্যন্ত ভারসাম্যহীন ডেটা সেট প্রশিক্ষণের জন্য দ্রুত গাইড


29

প্রশিক্ষণ সেটটিতে প্রায় 1000 ইতিবাচক এবং 10000 নেতিবাচক নমুনাগুলির সাথে আমার একটি শ্রেণিবদ্ধকরণ সমস্যা রয়েছে। সুতরাং এই ডেটা সেটটি বেশ ভারসাম্যহীন। সরল এলোমেলো বন কেবল সমস্ত পরীক্ষার নমুনাকে সংখ্যাগরিষ্ঠ শ্রেণি হিসাবে চিহ্নিত করার চেষ্টা করছে।

সাব-স্যাম্পলিং এবং ওজনযুক্ত এলোমেলো বন সম্পর্কে কিছু ভাল উত্তর এখানে দেওয়া হয়েছে: উচ্চ পক্ষপাতদুষ্ট ডেটাসেটের সাথে একটি ট্রি এনসেম্বল প্রশিক্ষণের জন্য কী বোঝা যায়?

আরএফ ছাড়াও কোন শ্রেণিবিন্যাস পদ্ধতি সমস্যাটিকে সর্বোত্তমভাবে পরিচালনা করতে পারে?


উত্তর:


19
  • ম্যাক্স কুহন প্রয়োগিত ভবিষ্যদ্বাণীমূলক মডেলিংয়ের Ch16 এ এটি ভালভাবে কভার করে ।
  • সংযুক্ত থ্রেডে উল্লিখিত হিসাবে, ভারসাম্যহীন ডেটা মূলত একটি ব্যয় সংবেদনশীল প্রশিক্ষণের সমস্যা। সুতরাং যে কোনও ব্যয় সংবেদনশীল পদ্ধতির ভারসাম্যহীন ডেটা প্রযোজ্য।
  • এ জাতীয় পন্থাগুলি প্রচুর রয়েছে। সমস্ত আর: সি 50 এ প্রয়োগ করা হয় না, ওজনযুক্ত এসভিএমগুলি বিকল্প। Jous-বুস্ট। আমি মনে করি রসবস্ট কেবল মাতলাব কোড হিসাবে উপলব্ধ।
  • আমি ওয়েকা ব্যবহার করি না, তবে বিশ্বাস করি এতে প্রচুর ব্যয় সংবেদনশীল শ্রেণিবদ্ধ রয়েছে।
  • ভারসাম্যহীন ডেটাসেটগুলি পরিচালনা: একটি পর্যালোচনা : সোটিরিস কোটসিয়েন্টিস, দিমিত্রিস ক্যানেলোপল্লোস, পানায়িওটিস পিনটেলাস '
  • ক্লাসের ভারসাম্যহীন সমস্যার বিষয়ে : জিনজিয়ান গুও, ইয়েলং ইয়িন, কাইলিং দং, গংপিং ইয়াং, গুয়াংটং ঝো

16

সংখ্যাগরিষ্ঠ শ্রেণি বোঝা সাধারণত এইরকম পরিস্থিতিতে যাওয়ার উপায়।

আপনি যদি ভাবেন যে ইতিবাচক শ্রেণীর খুব কম উদাহরণ রয়েছে তবে আপনি ওভারস্যাম্পলিং করতে পারেন, উদাহরণস্বরূপ, আকারের এনটি ডেটাसेट থেকে প্রতিস্থাপনের সাথে নমুনা 5n উদাহরণ।

আদেশ সহকারে:

  • কিছু পদ্ধতি ক্লাস বিতরণে পরিবর্তনের ক্ষেত্রে সংবেদনশীল হতে পারে, যেমন নাইভ বেয়েসের ক্ষেত্রে - এটি পূর্বের সম্ভাব্যতাগুলিকে প্রভাবিত করে।
  • ওভারস্যাম্পলিংয়ের কারণে ওভারফিট করা যায়

অথবা হতে পারে কিছু ক্লাস্টারিং অ্যালগরিদম ব্যবহার করে এবং গুচ্ছ কেন্দ্রগুলি ব্যবহার করতে?
লীলা প্রভু

ভারসাম্য রক্ষার জন্য এবং ভারসাম্যহীন ডেটাসেটগুলি মোকাবেলার জন্য অন্যান্য পদ্ধতির জন্য আপনি এই লিঙ্কটি পরীক্ষা করতে পারেন ।
জানপ্রীত সিংহ

11

গ্রেডিয়েন্ট বুস্টিংও এখানে একটি ভাল পছন্দ। উদাহরণস্বরূপ আপনি বিজ্ঞান-কিট শিখতে গ্রেডিয়েন্ট বুস্টিং ক্লাসিফায়ার ব্যবহার করতে পারেন। গ্রেডিয়েন্ট বুস্টিং ভুল শ্রেণিবদ্ধ উদাহরণগুলির উপর ভিত্তি করে ধারাবাহিক প্রশিক্ষণ সেটগুলি তৈরি করে শ্রেণি ভারসাম্যহীনতার মোকাবেলার একটি মূলত পদ্ধতি।


1
আমার বোধগম্যতা যে ভারসাম্যহীন ডেটা ব্যবহার করার সময় গ্রেডিয়েন্ট বুস্টিং আরএফ একই সীমাবদ্ধতায় ভুগছে: sci2s.ugr.es/keel/pdf/algorithm/articulo/…
চার্লস

1
বুনন একটি অতিরিক্ত পদক্ষেপ যা আপনি বন তৈরিতে গ্রহণ করেন যা সরাসরি ভারসাম্যহীনতার দিকে নজর দেয়। আপনি যে কাগজটির সাথে লিঙ্ক করেছেন এটি নূতন ভারসাম্য বজায় রাখার ক্ষেত্রেও নোট দেয় where এবং যে কাগজ বুস্টিং উল্লেখযোগ্যভাবে সাহায্য সমাপ্ত। সুতরাং আরএফ এবং বুস্টিংয়ের মধ্যে সমতা কোথায় দেখানো হয়েছে তা নিশ্চিত নন?
cwharland

1

এখানে পোস্ট করা উত্তরগুলি ছাড়াও, নেতিবাচক উদাহরণগুলির তুলনায় যদি ইতিবাচক উদাহরণগুলির সংখ্যা খুব কম হয়, তবে এটি ইতিবাচক উদাহরণগুলি হ'ল ব্যঙ্গতা হওয়ায় এটি একটি অনিয়মিত সনাক্তকরণ সমস্যা হিসাবে কাছাকাছি আসে।

মাল্টিভায়েট গাউসী বিতরণ থেকে সমস্ত পয়েন্টকে মডেল করতে এবং তারপরে গড় থেকে 2 বা 3 স্টাড দূরে থাকা বাছাইয়ের বিভিন্ন জটিলতাগুলি সনাক্ত করার জন্য আপনার কাছে সম্পূর্ণ পদ্ধতি রয়েছে।

চিন্তার জন্য আরেকটি খাদ্য - আমি বেশ কয়েক জনকে দেখেছি যারা এলোমেলোভাবে নেতিবাচক উদাহরণগুলিকে আরও উদাহরণ দিয়ে নমুনা করে যাতে উভয় শ্রেণী সংখ্যায় সমান হয়। এটি সম্পূর্ণরূপে সমস্যাগুলির উপর নির্ভর করে, আমরা চাই যে সেগুলি ভারসাম্যহীন হোক বা না হোক।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.