সাধারণভাবে ওভারসাম্পলিং সম্পর্কে মতামত, এবং বিশেষত স্মোথ অ্যালগরিদম [বন্ধ]


18

সাধারণভাবে শ্রেণিবিন্যাসে ওভারস্যাম্পলিং এবং বিশেষত এসএমওটিই অ্যালগরিদম সম্পর্কে আপনার মতামত কী? আমরা কেন শ্রেণি ডেটাতে ভারসাম্যহীনতা এবং ত্রুটির কোনও ভারসাম্যহীন ব্যয় সামঞ্জস্য করতে কেবল ব্যয় / জরিমানা প্রয়োগ করব না? আমার উদ্দেশ্যে, ভবিষ্যতের পরীক্ষামূলক ইউনিটের পূর্বাভাসের নির্ভুলতা চূড়ান্ত পরিমাপ।

রেফারেন্সের জন্য, SMOTE কাগজ: http://www.jair.org/papers/paper953.html


1
ভারসাম্যহীন ডেটাসেটে সংখ্যালঘু শ্রেণীর উপর নজর রাখার একটি সমস্যা হ'ল আপনি কয়েকটি উদাহরণের নির্দিষ্ট কিছু খুব বেশি শিখতে পেরেছেন এবং এটি সাধারণভাবে কার্যকর হবে না। সংখ্যালঘু শ্রেণীর এই পয়েন্টগুলির আশেপাশের টপোলজিকাল বৈশিষ্ট্যগুলি স্মোটের শেখার কথা, তাই আপনার বেশি পরিমাণে ফিট হওয়ার সম্ভাবনা কম।
horaceT

2
এটি একটি প্রশ্নের জন্য দুর্দান্ত একটি বিষয়, তবে আপনি কি এটি আরও কিছুটা কেন্দ্রীভূত করতে পারেন? "আপনার মতামত কি?" অন্তহীন আলোচনার আমন্ত্রণ জানায় তবে আমরা প্রশ্ন / উত্তর বিন্যাসে আরও তীক্ষ্ণভাবে মনোনিবেশ করতে ঝোঁক।
সাইকোরাক্স মনিকাকে

উত্তর:


19

{1 মূল্য-সংবেদনশীল শেখার বনাম স্যাম্পলিংয়ের সুবিধাগুলি এবং অসুবিধার একটি তালিকা দেয়:

2.2 নমুনা

ওভারস্যাম্পলিং এবং আন্ডার স্যাম্পলিং প্রশিক্ষণের ডেটার শ্রেণিবণ্টনকে পরিবর্তন করতে ব্যবহার করা যেতে পারে এবং ক্লাস ভারসাম্যহীনতা মোকাবেলায় উভয় পদ্ধতিই ব্যবহার করা হয়েছে [1, 2, 3, 6, 10, 11]। উচ্চ-স্কিউ ডেটা সেটগুলির সাহায্যে প্রশিক্ষণের ডেটা এইডস শিখার শ্রেণি বিতরণকে পরিবর্তনের কারণ হ'ল এটি কার্যকরভাবে অ-ইউনিফর্মের ভুল শ্রেণিবিন্যাস ব্যয় আরোপ করে। উদাহরণস্বরূপ, যদি কেউ প্রশিক্ষণের সেটগুলির শ্রেণিবণ্টনকে এমনভাবে পরিবর্তন করে যাতে ইতিবাচক থেকে নেতিবাচক উদাহরণগুলির অনুপাত 1: 1 থেকে 2: 1 এ যায়, তবে একজন কার্যকরভাবে 2: 1 এর একটি ভুল শ্রেণিবদ্ধকরণ ব্যয়ের অনুপাত নির্ধারণ করে দিয়েছে। প্রশিক্ষণের তথ্যের শ্রেণিবণ্টনকে পরিবর্তন করা এবং ভুল শ্রেণিবদ্ধকরণ ব্যয়ের অনুপাতের পরিবর্তনের মধ্যে এই সমতা সুপরিচিত এবং এলকান দ্বারা আনুষ্ঠানিকভাবে বর্ণনা করা হয়েছিল [9]।

ব্যয়-সংবেদনশীল পড়াশোনা বাস্তবায়নের জন্য স্যাম্পলিংয়ের ব্যবহারের সাথে সম্পর্কিত অসুবিধাগুলি রয়েছে। Undersampling সঙ্গে অসুবিধা যে পরিত্যাগ সম্ভাব্য দরকারী তথ্য । আমাদের দৃষ্টিকোণ থেকে ওভারস্যাম্পলিংয়ের প্রধান অসুবিধাটি হ'ল বিদ্যমান উদাহরণগুলির যথাযথ কপিগুলি তৈরি করার ফলে এটি অত্যধিক মানসিকতার সম্ভাবনা তৈরি করে । প্রকৃতপক্ষে, ওভারস্যাম্পলিংয়ের মাধ্যমে শিক্ষার্থীর পক্ষে একটি একক, প্রতিলিপিযুক্ত উদাহরণ আবরণ করার জন্য একটি শ্রেণিবিন্যাসের বিধি তৈরি করা বেশ সাধারণ। ওভারস্যাম্পলিংয়ের দ্বিতীয় অসুবিধাটি হ'ল এটি প্রশিক্ষণের উদাহরণগুলির সংখ্যা বাড়িয়ে তোলে , এইভাবে আমি শেখার সময়টিকে ncreasing করছি ।

২.৩ কেন নমুনা ব্যবহার করবেন?

স্যাম্পলিংয়ের অসুবিধাগুলি দেওয়া, এটি জিজ্ঞাসা করার মতো যে, স্কেঙ্ক শ্রেণি বন্টন এবং অ-অভিন্ন অবিচ্ছেদ্য ব্যয়ের সাথে ডেটা লেনদেন করার জন্য কেন কেউ ব্যয়-সংবেদনশীল শেখার অ্যালগরিদমের চেয়ে এটি ব্যবহার করবেন asking এর বেশ কয়েকটি কারণ রয়েছে। সর্বাধিক সুস্পষ্ট কারণ হ'ল সমস্ত লার্নিং অ্যালগরিদমের ব্যয় সংবেদনশীল বাস্তবায়ন নেই এবং সুতরাং নমুনা ব্যবহার করে একটি মোড়ক-ভিত্তিক পদ্ধতির একমাত্র বিকল্প। যদিও এটি অতীতের চেয়ে আজ কম সত্য, তবুও অনেক শিখার অ্যালগরিদম (যেমন, সি 4.5) এখনও শেখার প্রক্রিয়াতে সরাসরি ব্যয় পরিচালনা করে না।

স্যাম্পলিং ব্যবহারের দ্বিতীয় কারণ হ'ল অনেক উচ্চ স্কিউড ডেটা সেট প্রচুর এবং প্রশিক্ষণ সেটটির আকার হ্রাস করতে হবে যাতে শেখা সম্ভব হয়। এই ক্ষেত্রে, আন্ডার স্যাম্পলিং একটি যুক্তিসঙ্গত, এবং বৈধ, কৌশল বলে মনে হচ্ছে। এই গবেষণাপত্রে আমরা প্রশিক্ষণের সেটের আকারটি হ্রাস করার প্রয়োজন বিবেচনা করি না। তবে আমরা উল্লেখ করব যে, যদি কাউকে কিছু প্রশিক্ষণের ডেটা বাতিল করতে হয় তবে প্রশিক্ষণের সেট আকারটি প্রয়োজনীয় আকারে হ্রাস করার জন্য কয়েকটি সংখ্যাগরিষ্ঠ শ্রেণির উদাহরণগুলি ফেলে দেওয়া এবং তারপরে একটি ব্যয় - সংবেদনশীল লার্নিং অ্যালগরিদম, যাতে ফেলে দেওয়া প্রশিক্ষণের ডেটার পরিমাণ হ্রাস করা যায়।

একটি চূড়ান্ত কারণ যা ব্যয়-সংবেদনশীল শিক্ষার অ্যালগরিদমের পরিবর্তে স্যাম্পলিংয়ের ব্যবহারে অবদান রেখেছিল তা হ'ল ভুল শংসাপত্রের ব্যয়গুলি প্রায়শই অজানা। তবে, ব্যয়বহুল শিক্ষার অ্যালগরিদমের উপর স্যাম্পলিং ব্যবহারের এটি বৈধ কারণ নয়, যেহেতু সাদৃশ্য নিয়ে সাদৃশ্যটি দেখা দেয় final চূড়ান্ত প্রশিক্ষণের ডেটার শ্রেণিবণ্টনটি কী হওয়া উচিত? যদি এই ব্যয় সম্পর্কিত তথ্য জানা না যায় তবে আরওসি বক্ররেখার অধীনে অঞ্চল হিসাবে কোনও পরিমাপ শ্রেণিবদ্ধ কর্মক্ষমতা পরিমাপ করতে ব্যবহার করা যেতে পারে এবং উভয় পদ্ধতিরই যথাযথ ব্যয়ের অনুপাত / শ্রেণি বিতরণ নির্ধারণ করতে পারে।

তারা একাধিক পরীক্ষা-নিরীক্ষাও করেছিল, যা বেআইনী ছিল:

সমস্ত ডেটা সেট থেকে প্রাপ্ত ফলাফলের ভিত্তিতে, ব্যয় সংবেদনশীল শেখার, ওভারস্যাম্পলিং এবং আন্ডার স্যাম্পলিংয়ের মধ্যে কোনও নির্দিষ্ট বিজয়ী নেই

এরপরে তারা ডেটাসেটগুলিতে কোন মানদণ্ডটি ইঙ্গিত করতে পারে কোন কৌশলটিতে আরও ভাল লাগানো হয়েছে তা বোঝার চেষ্টা করেন।

তারা আরও মন্তব্য করে যে স্মোট কিছু উন্নতি করতে পারে:

নমুনা দেওয়ার কার্যকারিতা উন্নত করতে বিভিন্ন ধরণের উন্নতি হয়েছে ments এর কিছু উন্নয়নের মধ্যে রয়েছে [৫ -> স্মোট] ওভার স্যাম্পল করার সময় নতুন "সিনথেটিক" উদাহরণগুলি অন্তর্ভুক্ত করা, [11] আন্ডারপ্যাম্পিং করার সময় কম দরকারী সংখ্যাগরিষ্ঠ-শ্রেণীর উদাহরণগুলি মুছে ফেলা এবং একাধিক সাব-স্যাম্পল ব্যবহার করে যেমন প্রতিটি উদাহরণের চেয়ে নিম্নরূপ ব্যবহার করা হয় উপ-নমুনা [3]। এই কৌশলগুলি ওভার স্যাম্পলিং এবং আন্ডার স্যাম্পলিংয়ের সাথে তুলনা করা হলেও সাধারণত সেগুলি ব্যয়-সংবেদনশীল শেখার অ্যালগরিদমের সাথে তুলনা করা হয়নি। এটি ভবিষ্যতে অধ্যয়নযোগ্য হবে।


{1} ওয়েইস, গ্যারি এম।, কেট ম্যাককার্টি এবং বিবি জবার। "ব্যয়-সংবেদনশীল শেখা বনাম নমুনা: অসম ত্রুটির ব্যয় সহ ভারসাম্যহীন ক্লাস পরিচালনা করার জন্য কোনটি সেরা?" ডিএমআইএন 7 (2007): 35-41। https://scholar.google.com/scholar?cluster=10779872536070567255&hl=en&as_sdt=0,22 ; https://pdfs.semanticscholar.org/9908/404807bf6b63e05e5345f02bcb23cc739ebd.pdf


2
আপনি যখন "ব্যয় সংবেদনশীল শেখার অ্যালগরিদম" বলছেন, তখন আমার মস্তিস্ককে কি "ভাবার সংক্রমণের উচ্চ ফ্রিকোয়েন্সি সহ ক্লাসগুলিকে শাস্তি দিতে হবে এবং কম ফ্রিকোয়েন্সি সহ ক্লাসগুলিতে সম্ভবত আরও বেশি গুরুত্ব দেওয়া উচিত"? এই ধারণাটি কি ক্লাস ওজন নির্ধারণের সমতুল্য?
জারাড
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.