ওভারস্যাম্পলিং, আন্ডার স্যাম্পলিং এবং এসএমওটিই কোন সমস্যার সমাধান করে?


25

সাম্প্রতিক, ভালভাবে উদ্ধৃত হওয়া প্রশ্নে টিম জিজ্ঞাসা করেছেন কখন মেশিন লার্নিংয়ে ভারসাম্যহীন ডেটা আসলেই সমস্যা ? প্রশ্নের ভিত্তি হ'ল ক্লাস ভারসাম্য এবং ভারসাম্যহীন ক্লাসগুলির সমস্যা নিয়ে আলোচনা করে প্রচুর মেশিন লার্নিং সাহিত্য রয়েছে । ধারণাটি হ'ল ধনাত্মক এবং নেতিবাচক শ্রেণীর মধ্যে ভারসাম্যহীন ডেটাসেটগুলি কিছু মেশিন লার্নিং শ্রেণিবিন্যাসের জন্য সমস্যা সৃষ্টি করে (আমি এখানে সম্ভাব্য মডেলগুলিও অন্তর্ভুক্ত করছি) অ্যালগরিদমগুলির জন্য, এবং পদ্ধতিগুলি ডেটাসেটকে "ভারসাম্য" বজায় রাখার জন্য নিখুঁত 50/50 পুনরুদ্ধার করতে হবে ধনাত্মক এবং নেতিবাচক শ্রেণীর মধ্যে বিভক্ত।

উচ্চতর উত্তরের উত্তরগুলির সাধারণ জ্ঞানটি হ'ল "আপনার মডেলিংয়ের বিষয়ে আপনি যদি চিন্তাভাবনা করে থাকেন তবে তা নয়"। এম। হেনরি এল, একটি গৃহীত উত্তরের একটি ভোট দেওয়া মন্তব্যে বলেছেন:

[...] ভারসাম্যহীন ডেটা ব্যবহার করে নিম্ন স্তরের সমস্যা নেই। আমার অভিজ্ঞতায়, "ভারসাম্যহীন ডেটা এড়ানোর" পরামর্শটি হয় হয় অ্যালগোরিদম-নির্দিষ্ট, বা উত্তরাধিকার সূত্রে প্রাপ্ত বুদ্ধি। আমি অ্যাডামোর সাথে একমত যে সাধারণভাবে, ভারসাম্যহীন ডেটা কোনও নির্দিষ্ট-সুনির্দিষ্ট মডেলটির কাছে কোনও ধারণাগত সমস্যা না দেয়।

অ্যাডামো যুক্তি দিয়েছিলেন যে শ্রেণীর ভারসাম্য নিয়ে "সমস্যা" সত্যই শ্রেণীর বিরলতার একটি

সুতরাং, কমপক্ষে রিগ্রেশন (তবে আমি সব পরিস্থিতিতেই সন্দেহ করি), ভারসাম্যহীন ডেটা নিয়ে একমাত্র সমস্যা হ'ল আপনি কার্যকরভাবে ছোট নমুনার আকার পান। যদি কোনও পদ্ধতি বিরল শ্রেণীর মানুষের সংখ্যার জন্য উপযুক্ত হয় তবে তাদের অনুপাতের সদস্যপদ ভারসাম্যহীন থাকলে কোনও সমস্যা হওয়া উচিত নয়।

যদি এটি হস্তে আসল সমস্যা হয় তবে এটি একটি মুক্ত প্রশ্ন রেখে যায়: ডেটাসেটের ভারসাম্য রক্ষার জন্য পুনরায় মডেলিংয়ের সমস্ত পদ্ধতির উদ্দেশ্য কী: ওভারসাম্পলিং, আন্ডার স্যাম্পলিং, স্মোট ইত্যাদি? স্পষ্টতই তারা একটি ছোট নমুনা আকারের স্পষ্টতই সমস্যাটি সমাধান করে না, আপনি কিছুই বাদ দিয়ে তথ্য তৈরি করতে পারবেন না!


আমি এটিকে ঠিক বদলে দিয়েছিলাম ... ধন্যবাদ এটি আপনার প্রশ্নের পুরো ক্ষেত্রকে কভার করে না তবে একটি শিরোনামের নেই - এটি আপনি কী ধরণের জিনিস জিজ্ঞাসা করছেন তা স্পষ্টভাবে পাওয়া যায়।
গ্লেন_বি -রিনস্টেট মনিকা

অবশ্যই এমন পরিস্থিতি রয়েছে যেখানে বুটস্ট্র্যাপ এবং সাবমলিংয়ের পদ্ধতিগুলি দরকারী এবং কখনও কখনও অন্যান্য ননপ্যারমেট্রিক পদ্ধতিগুলির চেয়ে ভাল। বুটস্ট্র্যাপ এবং সাবমলিংয়ের বইগুলি এটি কভার করে। অপেক্ষাকৃত ছোট নমুনায় বৈষম্যমূলক বিশ্লেষণে ছুটি-ওয়ান-আউটকে ছাড়িয়ে বুটস্ট্র্যাপের শ্রেষ্ঠত্ব সহ এটি নিয়ে এই সাইটে আলোচনা রয়েছে। কিছু পরিস্থিতি অবশ্যই রয়েছে যেখানে বুটস্ট্র্যাপ ব্যর্থ হয় এবং সেগুলি আমার বইয়ের পাশাপাশি অন্যান্য হিসাবে উল্লেখ করা হয়।
মাইকেল আর চেরনিক

@ মিশেল চের্নিক আমি বুটস্ট্র্যাপের বিষয়ে কথা বলছি না, গ্লেনই এ সম্পর্কে মন্তব্য করেছিলেন। আমি নমুনা ওভারের ও অধীনে "শ্রেণি ভারসাম্য" পদ্ধতির কথা বলছি যাতে ইতিবাচক থেকে নেতিবাচক শ্রেণিতে যেমন সমানভাবে ডেটা সেটে প্রতিনিধিত্ব করা হয়।
ম্যাথু ড্রুরি

আপনি কি সাবমলিং অন্তর্ভুক্ত করবেন? আপনি কি কেবল অসম নমুনার আকারের কথা উল্লেখ করছেন? আপনি কতটা সাধারণ বক্তব্য দিচ্ছেন?
মাইকেল আর চেরনিক

@ মিশেল চের্নিক আমি প্রথম এবং শেষ অনুচ্ছেদে কিছু স্পষ্টকারী মন্তব্য যুক্ত করেছি, আমি আশা করি এটি সাহায্য করবে।
ম্যাথু ড্রুরি

উত্তর:


0

কিছু নমুনা কৌশলগুলি পক্ষপাতের জন্য সামঞ্জস্য করতে হয় (জনসংখ্যার হারটি যদি পরিচিত হয় এবং আলাদা হয়) তবে আমি ভারসাম্যহীন শ্রেণি নিজেই সমস্যা নয় এই ধারণার সাথে একমত। একটি প্রধান কারণ প্রক্রিয়াজাতকরণ কার্য সম্পাদন নেমে আসে। উদাহরণস্বরূপ, যদি আমাদের টার্গেট করা শ্রেণি 1: 100000 এ একটি চরম বিরল ক্ষেত্রে হয় তবে আমাদের মডেলিং ডেটাসেটটি বিশাল হবে এবং গণনা করা কঠিন। স্যাম্পলিং, কৌশল যাই হোক না কেন, মোট ডেটাসেটের আকার হ্রাস করার জন্য সর্বদা কিছু ডেটা ফেলে দেওয়া হয়। আমি মনে করি যে সমস্ত বিভিন্ন নমুনা কৌশলগুলির মধ্যে পার্থক্য রয়েছে, কেবলমাত্র চতুরতা যার চারপাশে ভবিষ্যদ্বাণীমূলক সম্ভাবনার কোনও ক্ষতি ছাড়াই আমরা কোন তথ্য ফেলে দিই।


4
এটি সমস্ত সত্য, তবে আমি যে পদ্ধতিগুলির সাথে আলোচনা করছি তার মধ্যে অনেকগুলি বড় ডেটাসেট তৈরি করে । আপসাম্পলিং বিদ্যমান ডেটাপয়েন্টগুলিকে অনুলিপি করে ইতিবাচক শ্রেণির আরও উদাহরণ তৈরি করে এবং স্মোট বিরল শ্রেণীর "সিন্থেটিক" ডেটা পয়েন্ট তৈরি করে। এগুলি অবশ্যই কম্পিউটিং দক্ষতায় সহায়তা করবে না।
ম্যাথু ড্রুরি


0

এই পদ্ধতিগুলি যে সমস্যাটি সমাধান করার চেষ্টা করছে তা হ'ল ব্যয় ক্রিয়ায় সংখ্যালঘু শ্রেণীর প্রভাব বাড়ানো। এটি কারণ আলগোসগুলি পুরো ডেটাসেটটি ভালভাবে ফিট করার চেষ্টা করে এবং তারপর সংখ্যাগরিষ্ঠের সাথে খাপ খায়। শ্রেণীর ওজন ব্যবহারের ক্ষেত্রে অন্য পদ্ধতি হ'ল, এবং বেশিরভাগ ক্ষেত্রে এই আপোরিচটি আরও ভাল ফলাফল দেয়, যেহেতু আন্ডার স্যাম্পলিং বা কর্মক্ষমতা হ্রাস এবং ওভার স্যাম্পলিংয়ের মাধ্যমে শব্দের প্রবর্তনের মাধ্যমে কোনও তথ্য ক্ষতি হয় না।


2
আমি আপনার উত্তর বুঝতে পারি না।
মাইকেল আর চেরনিক

আমি বোঝাতে চাইছি যে শ্রেণিবদ্ধকারীর পারফরম্যান্স পুরো ডেটাসেটে মূল্যায়িত করা হয় (ইতিবাচক এবং নেতিবাচক উদাহরণ উভয়টিতে গড় ত্রুটি), যেখানে প্রতিটি উদাহরণের জন্য ত্রুটি সমানভাবে ওজনযুক্ত। সুতরাং অ্যালগরিদম (যেমন লজিস্টিক রিগ্রেশন) এর অনুমানের ফাংশনকে উদাহরণগুলিতে রূপান্তর করে যা ত্রুটি হ্রাসকে সর্বাধিকীকরণ করবে। এই ক্ষেত্রে সংখ্যাগরিষ্ঠ শ্রেণীর ক্ষেত্রে, যেখানে সংখ্যালঘু (নেতিবাচক শ্রেণি) কার্যত উপেক্ষা করা হয় কারণ এটি পুরো ডেটাসেটে ত্রুটির উপর উচ্চ প্রভাব রাখে না। এ কারণেই স্যাম্পলিং বা বর্গ ওজন অধীনে ওভারসাম্পলিং সংখ্যালঘু শ্রেণিতে অ্যালগরিদমকে আরও ভালভাবে গ্রহণের অনুমতি দেয়।
মিলান ভুকিসেভিক

0

আমি আপনাকে আরও চরম উদাহরণ দেব। ইতিমধ্যে 99 টি পয়েন্টকে ইতিবাচক হিসাবে লেবেলযুক্ত এবং কেবলমাত্র নেতিবাচক হিসাবে লেবেলযুক্ত একটি ডেটাसेट আপনার ক্ষেত্রে রয়েছে Consider প্রশিক্ষণের সময়, আপনার মডেল বুঝতে পারবেন যে এটি যদি সবকিছুকে ইতিবাচক হিসাবে শ্রেণীবদ্ধ করে, তবে এটি তার সাথে দূরে সরে যাবে। এটিকে ঠিক করার একটি উপায় হ'ল উপস্থাপিত শ্রেণিকে নমুনা দেওয়া এবং অন্যটি হ'ল উপস্থাপন করা শ্রেণিকে নিম্নরূপ করা। উদাহরণস্বরূপ, positive০ টি ধনাত্মক এবং ৩০ টি নেতিবাচক লেবেলের একটি ডেটাশে আমি প্রতিস্থাপন ছাড়াই নেতিবাচক লেবেলগুলির নমুনা এবং প্রতিস্থাপন ছাড়াই ইতিবাচকগুলি নমুনা করতে পারি যার ফলশ্রুতিতে আমার মডেলটি প্রশিক্ষণের সময় আরও নেতিবাচক লেবেলের মুখোমুখি হবে। এইভাবে, যদি আমার মডেল সবকিছুকে ইতিবাচক হিসাবে শ্রেণীবদ্ধ করার চেষ্টা করে তবে অন্যথায় এর চেয়ে বড় ক্ষতি হতে পারে।

স্যাম্পলিংয়ের সাথে সম্পর্কিত নয় এমন আরও একটি পদ্ধতি হ'ল সংখ্যালঘু লেবেলের সাথে ডেটা পয়েন্টগুলিতে উচ্চতর ওজন দেওয়ার জন্য ব্যয় কার্যকারিতাটি সামঞ্জস্য করা। উদাহরণস্বরূপ, আপনি যদি এমন কোনও ডেটাসেটে এনএলএল ক্ষতি ব্যবহার করছেন যেখানে লেবেলের মধ্যে 0 টির তুলনায় 1 টি উপস্থাপিত হয়েছে, আপনি আপনার ক্ষতি ফাংশনটি এমন হতে পারে:

এল(এক্সআমি~,Yআমি)=-α(Yআমি)Ln(এক্সআমি~)-β(1-Yআমি)Ln(1-এক্সআমি~)

কোথায় β>α। ডিফেরেন্সের বিশালতা β-α অতিরিক্ত উপস্থাপনা / উপস্থাপনের মাত্রার উপর নির্ভর করে।


0

ভারসাম্যহীন ডেটা মেশিন লার্নিংয়ে কোনও সমস্যা নয় এমন সিদ্ধান্তের সাথে আমি একমত নই। রিগ্রেশন সম্ভবত কম, কিন্তু এটি অবশ্যই শ্রেণিবদ্ধকরণ হয়।

ভারসাম্যহীন ডেটা মেশিন লার্নিং অ্যাপ্লিকেশনগুলিতে প্রাসঙ্গিক কারণ ক্লাস ভারসাম্য স্থাপনের ক্ষেত্রে অ্যালগরিদমের (যে গবেষণাটি সম্পর্কে আমি ভাবছি বিশেষত শ্রেণিবদ্ধীদের উপর) তার কার্যকারিতা হ্রাস পেয়েছে।

ক্লাস এ 'বনাম' ক্লাস বি'র প্রশিক্ষণের উদাহরণগুলির 25: 1 অনুপাতের সাথে একটি সাধারণ বাইনারি শ্রেণিবদ্ধকরণ সমস্যা নিন। গবেষণায় দেখা গেছে যে ক্লাস বিয়ের শ্রেণিবিন্যাসের সাথে সম্পর্কিত নির্ভুলতা কেবল প্রশিক্ষণের তথ্যের অনুপাতের কারণে হ্রাস পেয়েছে। আপনার কাছে যতটা প্রশিক্ষণের উদাহরণ কম রয়েছে, ততই বোঝা যায়, আপনার শ্রেণিবদ্ধ দরিদ্ররা সেই ডেটা সম্পর্কে প্রশিক্ষণ দেবে। মন্তব্যকারীদের একজন যেমন বলেছে, আপনি কিছুই করার বাইরে কিছু করতে পারবেন না। আমি যেসব কাগজপত্র দেখেছি, সেগুলি থেকে, বহুবিধ শ্রেণীর শ্রেণিবিন্যাস সমস্যার মধ্যে, মনে হচ্ছে সংখ্যালঘু শ্রেণীর যথার্থতার উপর উল্লেখযোগ্য প্রভাব ফেলতে শুরু করার জন্য আপনার 10: 1 অনুপাতের দরকার। আমি যে তুলনায় বিভিন্ন সাহিত্য পড়েছি তার সম্ভবত বিভিন্ন মতামত রয়েছে।

সুতরাং, প্রস্তাবিত সমাধানগুলি হ'ল: সংখ্যালঘু শ্রেণীর উপর নজর দেওয়া, সংখ্যাগরিষ্ঠ শ্রেণির বোঝা বা সংখ্যালঘু শ্রেণীর উপর এসএমওটিই ব্যবহার করা। হ্যাঁ, আপনি সংখ্যালঘু শ্রেণির জন্য সিন্থেটিক ডেটা তৈরির (কোনও সহজ পদ্ধতি নয়) না থাকলে আপনি সত্যই কোথাও থেকে ডেটা তৈরি করতে পারবেন না (SMOTE সাজ্ট-অফ করে তবে ঠিক নয়)। মিক্সআপ এবং এর মতো অন্যান্য কৌশলগুলিও এই ধারণার মধ্যে পড়ে তবে আমি মনে করি যে তারা শ্রেণি ভারসাম্যহীন সমাধানগুলির চেয়ে বেশি নিয়মিত z আমি যেসব কাগজপত্র পড়েছি সেগুলিতে ওভারসাম্পলিং> এসএমটিই> ইনড্যাম্পলিং

আপনার কৌশল নির্বিশেষে, আপনি সংখ্যাগরিষ্ঠ এবং সংখ্যালঘু শ্রেণীর মধ্যে সম্পর্কের পরিবর্তন করছেন যা ঘটনাকে প্রভাবিত করতে পারে। অন্য কথায়, যদি আপনি অতি-বিরল মস্তিষ্কের রোগ X সনাক্ত করতে একটি শ্রেণিবদ্ধকারী তৈরি করে থাকেন যা 100,000 এর মধ্যে 1 এর প্রকোপ রয়েছে এবং আপনার শ্রেণিবদ্ধ 1: 1 এ রয়েছে তবে আপনি সংখ্যার ভুয়া পজিটিভের সাথে আরও সংবেদনশীল এবং কম সুনির্দিষ্ট হতে পারেন । যদি আপনি গুরুত্বপূর্ণ হয় যে আপনি পরে এই মামলাগুলি এবং সালিস সনাক্ত করেন তবে আপনি ঠিক আছেন। যদি তা না হয় তবে আপনি অন্য লোকদের সময় এবং অর্থ প্রচুর অপচয় করেছেন। এই সমস্যাটি শেষ পর্যন্ত মোকাবেলা করা প্রয়োজন।

সুতরাং প্রশ্নের উত্তর দিতে:

টিএল / ডঃ: ভারসাম্য / অ্যান্ডাম্পলিং এবং এসএমওটিই (এবং সিন্থেটিক ডেটা) এর মতো ক্লাস-ব্যালেন্সিং অপারেশনগুলি ভারসাম্যহীনতার কারণে সৃষ্ট একটি অ্যালগরিদমে অন্তর্নিহিত পারফরম্যান্সকে সমাধান করে মেশিন লার্নিং অ্যালগোরিদম (শ্রেণিবদ্ধ) পারফরম্যান্সের উন্নতির জন্য বিদ্যমান

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.