শ্রেণি ভারসাম্যহীন সমস্যাগুলি ব্যয়-সংবেদনশীল শিক্ষণ বা পুনরায় মডেলিংয়ের মাধ্যমে সমাধান করা যেতে পারে। ব্যয়-সংবেদনশীল শেখার বনাম স্যাম্পলিংয়ের সুবিধাগুলি এবং অসুবিধাগুলি দেখুন , নীচে কপিরাইট করা:
{1 মূল্য-সংবেদনশীল শেখার বনাম স্যাম্পলিংয়ের সুবিধাগুলি এবং অসুবিধার একটি তালিকা দেয়:
2.2 নমুনা
ওভারস্যাম্পলিং এবং আন্ডার স্যাম্পলিং প্রশিক্ষণের ডেটার শ্রেণিবণ্টনকে পরিবর্তন করতে ব্যবহার করা যেতে পারে এবং ক্লাস ভারসাম্যহীনতা মোকাবেলায় উভয় পদ্ধতিই ব্যবহার করা হয়েছে [1, 2, 3, 6, 10, 11]। উচ্চ-স্কিউ ডেটা সেটগুলির সাহায্যে প্রশিক্ষণের ডেটা এইডস শিখার শ্রেণি বিতরণকে পরিবর্তনের কারণ হ'ল এটি কার্যকরভাবে অ-ইউনিফর্মের ভুল শ্রেণিবিন্যাস ব্যয় আরোপ করে। উদাহরণস্বরূপ, যদি কেউ প্রশিক্ষণের সেটগুলির শ্রেণিবণ্টনকে এমনভাবে পরিবর্তন করে যাতে ইতিবাচক থেকে নেতিবাচক উদাহরণগুলির অনুপাত 1: 1 থেকে 2: 1 এ যায়, তবে একজন কার্যকরভাবে 2: 1 এর একটি ভুল শ্রেণিবদ্ধকরণ ব্যয়ের অনুপাত নির্ধারণ করে দিয়েছে। প্রশিক্ষণের তথ্যের শ্রেণিবণ্টনকে পরিবর্তন করা এবং ভুল শ্রেণিবদ্ধকরণ ব্যয়ের অনুপাতের পরিবর্তনের মধ্যে এই সমতা সুপরিচিত এবং এলকান দ্বারা আনুষ্ঠানিকভাবে বর্ণনা করা হয়েছিল [9]।
ব্যয়-সংবেদনশীল পড়াশোনা বাস্তবায়নের জন্য স্যাম্পলিংয়ের ব্যবহারের সাথে সম্পর্কিত অসুবিধাগুলি রয়েছে।
Undersampling সঙ্গে অসুবিধা হল যে এটি সম্ভাব্য দরকারী তথ্য বর্জন হয় । আমাদের দৃষ্টিকোণ থেকে ওভারস্যাম্পলিংয়ের প্রধান অসুবিধাটি হ'ল বিদ্যমান উদাহরণগুলির যথাযথ কপিগুলি তৈরি করার ফলে এটি অত্যধিক মানসিকতার সম্ভাবনা তৈরি করে । প্রকৃতপক্ষে, ওভারস্যাম্পলিংয়ের মাধ্যমে শিক্ষার্থীর পক্ষে একটি একক, প্রতিলিপিযুক্ত উদাহরণ আবরণ করার জন্য একটি শ্রেণিবিন্যাসের বিধি তৈরি করা বেশ সাধারণ। ওভারস্যাম্পলিংয়ের দ্বিতীয় অসুবিধাটি হ'ল এটি প্রশিক্ষণের উদাহরণগুলির সংখ্যা বাড়িয়ে তোলে , এইভাবে আমি শেখার সময়টিকে ncreasing করছি ।
২.৩ কেন নমুনা ব্যবহার করবেন?
স্যাম্পলিংয়ের অসুবিধাগুলি দেওয়া, এটি জিজ্ঞাসা করার মতো যে, স্কেঙ্ক শ্রেণি বন্টন এবং অ-অভিন্ন অবিচ্ছেদ্য ব্যয়ের সাথে ডেটা লেনদেন করার জন্য কেন কেউ ব্যয়-সংবেদনশীল শেখার অ্যালগরিদমের চেয়ে এটি ব্যবহার করবেন asking এর বেশ কয়েকটি কারণ রয়েছে। সর্বাধিক সুস্পষ্ট কারণ হ'ল সমস্ত লার্নিং অ্যালগরিদমের ব্যয় সংবেদনশীল বাস্তবায়ন নেই এবং সুতরাং নমুনা ব্যবহার করে একটি মোড়ক-ভিত্তিক পদ্ধতির একমাত্র বিকল্প। যদিও এটি অতীতের চেয়ে আজ কম সত্য, তবুও অনেক শিখার অ্যালগরিদম (যেমন, সি 4.5) এখনও শেখার প্রক্রিয়াতে সরাসরি ব্যয় পরিচালনা করে না।
স্যাম্পলিং ব্যবহারের দ্বিতীয় কারণ হ'ল অনেক উচ্চ স্কিউড ডেটা সেট প্রচুর এবং প্রশিক্ষণ সেটটির আকার কমিয়ে আনতে হবে যাতে শেখা সম্ভব হয়। এই ক্ষেত্রে, আন্ডার স্যাম্পলিং একটি যুক্তিসঙ্গত, এবং বৈধ, কৌশল বলে মনে হচ্ছে। এই গবেষণাপত্রে আমরা প্রশিক্ষণের সেটের আকারটি হ্রাস করার প্রয়োজন বিবেচনা করি না। তবে আমরা উল্লেখ করব যে, যদি কাউকে কিছু প্রশিক্ষণের ডেটা বাতিল করতে হয় তবে প্রশিক্ষণের সেট আকারটি প্রয়োজনীয় আকারে হ্রাস করার জন্য কয়েকটি সংখ্যাগরিষ্ঠ শ্রেণির উদাহরণগুলি ফেলে দেওয়া এবং তারপরে একটি ব্যয় - সংবেদনশীল লার্নিং অ্যালগরিদম, যাতে ফেলে দেওয়া প্রশিক্ষণের ডেটার পরিমাণ হ্রাস করা যায়।
একটি চূড়ান্ত কারণ যা ব্যয়-সংবেদনশীল শিক্ষার অ্যালগরিদমের পরিবর্তে স্যাম্পলিংয়ের ব্যবহারে অবদান রেখেছিল তা হ'ল ভুল শংসাপত্রের ব্যয়গুলি প্রায়শই অজানা। তবে, ব্যয়বহুল শিক্ষার অ্যালগরিদমের উপর স্যাম্পলিং ব্যবহারের এটি বৈধ কারণ নয়, যেহেতু সাদৃশ্য নিয়ে সাদৃশ্যটি দেখা দেয় final চূড়ান্ত প্রশিক্ষণের ডেটার শ্রেণিবণ্টন কী হওয়া উচিত? যদি এই ব্যয় সম্পর্কিত তথ্য জানা না যায় তবে আরওসি বক্ররেখার অধীনে অঞ্চল হিসাবে একটি পরিমাপ শ্রেণিবদ্ধ কর্মক্ষমতা পরিমাপ করতে ব্যবহার করা যেতে পারে এবং উভয় পদ্ধতিরই যথাযথ ব্যয়ের অনুপাত / শ্রেণি বিতরণ নির্ধারণ করতে পারে।
তারা একাধিক পরীক্ষা-নিরীক্ষাও করেছিল, যা বেআইনী ছিল:
সমস্ত ডেটা সেট থেকে প্রাপ্ত ফলাফলের ভিত্তিতে, ব্যয় সংবেদনশীল শেখার, ওভারস্যাম্পলিং এবং আন্ডার স্যাম্পলিংয়ের মধ্যে কোনও নির্দিষ্ট বিজয়ী নেই
এরপরে তারা ডেটাসেটগুলিতে কোন মানদণ্ডটি ইঙ্গিত করতে পারে কোন কৌশলটিতে আরও ভাল লাগানো হয়েছে তা বোঝার চেষ্টা করেন।
তারা আরও মন্তব্য করে যে স্মোট কিছু উন্নতি করতে পারে:
নমুনা দেওয়ার কার্যকারিতা উন্নত করতে বিভিন্ন ধরণের উন্নতি হয়েছে people এর কিছু উন্নয়নের মধ্যে রয়েছে [৫ -> স্মোট] ওভার স্যাম্পল করার সময় নতুন "সিনথেটিক" উদাহরণগুলি অন্তর্ভুক্ত করা, [11] আন্ডারপ্যাম্পিং করার সময় কম দরকারী সংখ্যাগরিষ্ঠ-শ্রেণীর উদাহরণগুলি মুছে ফেলা এবং একাধিক সাব-স্যাম্পল ব্যবহার করে যেমন প্রতিটি উদাহরণের চেয়ে কম আন্ডার স্যাম্পল ব্যবহার করা হয় উপ-নমুনা [3]। এই কৌশলগুলি ওভার স্যাম্পলিং এবং আন্ডার স্যাম্পলিংয়ের সাথে তুলনা করা হলেও এগুলি সাধারণত ব্যয়-সংবেদনশীল শেখার অ্যালগরিদমের সাথে তুলনা করা হয়নি। এটি ভবিষ্যতে অধ্যয়নযোগ্য হবে।
{1} ওয়েইস, গ্যারি এম।, কেট ম্যাককার্টি এবং বিবি জবার। "ব্যয়-সংবেদনশীল শেখা বনাম নমুনা: অসম ত্রুটির ব্যয় সহ ভারসাম্যহীন ক্লাস পরিচালনা করার জন্য কোনটি সেরা?" ডিএমআইএন 7 (2007): 35-41। https://scholar.google.com/scholar?cluster=10779872536070567255&hl=en&as_sdt=0,22 ; https://pdfs.semanticscholar.org/9908/404807bf6b63e05e5345f02bcb23cc739ebd.pdf