সমর্থন ভেক্টর মেশিন ভারসাম্যহীন ডেটাসেট পরিচালনা করে?


14

এসভিএম ভারসাম্যহীন ডেটাসেট পরিচালনা করে? ভারসাম্যহীন ডেটাসেট পরিচালনা করে এমন কোনও প্যারামিটার (যেমন সি, বা ভুল সংশোধনী ব্যয়)?


1
কোন ডেটাসেটকে "ভারসাম্যহীন" করে তোলে?
হোবার

1
@ যে শ্রেণিবদ্ধের ডেটা সেট বহুলাংশে বিবিধ শ্রেণীর বিস্তারের সাথে সেটাকে প্রায়শই ভারসাম্যহীন বলে উল্লেখ করা হয়।
মার্ক Claesen

1
@ মার্ক এটি সাধারণভাবে সত্য হতে পারে তবে এটি একটি অস্পষ্ট ধারণা। "মূলত ভিন্নতা" কত? কিছু বিশেষ পরিস্থিতিতে বাদে কেন এটি গুরুত্বপূর্ণ? আমি বিশ্বাস করি যে আমাদের জন্য এই প্রশ্নের প্রস্তাবক অর্থ "ভারসাম্যহীন" দ্বারা অভিপ্রেত অর্থ সম্পর্কে কারও বুদ্ধিমান অনুমান গ্রহণ না করে তার অর্থ কী তা শিখতে গুরুত্বপূর্ণ learn
whuber

@ ভারসাম্যহীন ভারসাম্যহীন ডেটাসেটগুলি মেশিন লার্নিংয়ের একটি সাধারণ ধারণা। অ্যাপ্লিকেশনগুলির ক্ষেত্রে যেমন স্প্যাম সনাক্তকরণ ইত্যাদির কারণে সম্ভবত সম্ভাবনার পরিবর্তে বিযুক্তি ভুলকে লক্ষ্য করে অ্যালগরিদমগুলির অগ্রগতির কারণে। এটি পরিবর্তে ত্রুটির ওজনকে সমস্যাযুক্ত করে তোলে।
seanv507

2
আপনাকে ধন্যবাদ, @ স্যানভ, এই স্পষ্টতার জন্য। পরিভাষাজনিত সমস্যাটি সত্যই মনে হয় যে "হ্যান্ডলগুলি" "" প্রয়োগ করা যেতে পারে "উল্লেখ করে না বরং এটি এমন একটি সেটিংকে বোঝায় যাতে (1) এমন একটি শ্রেণির মধ্যে রয়েছে যে এরূপ সংখ্যালঘুতে এর ভবিষ্যদ্বাণীপূর্ণ কার্য সম্পাদন ভারী প্রভাবিত হতে পারে অন্যান্য শ্রেণীর উপস্থিতি, যখন (2) সংখ্যালঘু শ্রেণির জন্য সঠিক ভবিষ্যদ্বাণী করা আগ্রহী। সেই অর্থে "ভারসাম্যহীন ডেটাসেট" সমস্যাটির একটি বরং অসম্পূর্ণ বিবরণ, তবে যেহেতু শব্দটি কিছু মুদ্রা অর্জন করেছে বলে মনে হয় এটি অভিযোগ করা অর্থহীন বলে মনে হয়।
হোয়বার

উত্তর:


18

ভারসাম্যহীন ডেটা সেটগুলির জন্য আমরা সাধারণত প্রতি ক্লাসে বিভ্রান্তিকর জরিমানা পরিবর্তন করি। এটিকে ক্লাস-ওয়েটেড এসভিএম বলা হয়, যা নিম্নলিখিতগুলি হ্রাস করে:

সর্বনিম্নW,,ξΣআমি=1এনΣ=1এনαআমিαYআমিYκ(এক্সআমি,এক্স)+ +সিপিগুলিΣআমিপিξআমি+ +সিএনΣআমিএনξআমি,গুলিটিYআমি(Σ=1এনαYκ(এক্সআমি,এক্স)+ +)1-ξআমি,আমি=1...এনξআমি0,আমি=1...এন

যেখানে এবং ইতিবাচক / নেতিবাচক প্রশিক্ষণের উদাহরণগুলি উপস্থাপন করে। স্ট্যান্ডার্ড এসভিএম-এ আমাদের কেবলমাত্র একটি মান রয়েছে, যেখানে এখন আমাদের কাছে ২ টি সংখ্যা রয়েছে। সংখ্যালঘু শ্রেণির জন্য বিয়োগ বিধানের জরিমানা সংখ্যাগরিষ্ঠ শ্রেণীর চেয়ে বড় হতে বেছে নেওয়া হয়।পিএনসি

এই পদ্ধতির প্রারম্ভিকভাবে প্রবর্তিত হয়েছিল, এটি উদাহরণস্বরূপ 1997 সালের একটি গবেষণাপত্রে উল্লেখ করা হয়েছে:

এডগার ওসুনা, রবার্ট ফ্রেন্ড এবং ফেডেরিকো গিরোসি। সমর্থন ভেক্টর মেশিন: প্রশিক্ষণ এবং অ্যাপ্লিকেশন। প্রযুক্তিগত প্রতিবেদন এআইএম -1602, 1997. ( পিডিএফ )

মূলত এটি সংখ্যালঘু শ্রেণীর উপর রাখার সমতুল্য: উদাহরণস্বরূপ যদি এটি সম্পূর্ণরূপে প্রশিক্ষণ সেটে প্রতিটি দুবার অন্তর্ভুক্ত করার পরে সহ একটি স্ট্যান্ডার্ড এসভিএম প্রশিক্ষণের সমতুল্য ।সিপিগুলি=2সিএনসি=সিএন


শীতল ধন্যবাদ! তা ছাড়াও কি লজিস্টিক রিগ্রেশন, নাভি বেইস, ডিসিশন ট্রি এই জাতীয় ভারসাম্যহীনতার সমস্যাটি পরিচালনা করে?
রক দ্য স্টার 21

লজিস্টিক রিগ্রেশন অবশ্যই করে, আপনি কেবল ইতিবাচক নিদর্শন এবং নেতিবাচক নিদর্শনগুলির সম্ভাবনাটিকে আলাদাভাবে ওজন করেন।
ডিকরান মার্সুপিয়াল

লজিস্টিক রিগ্রেশন এবং এসভিএম অন্তর্নিহিত উপায় সরবরাহ করে। আমি এই সমস্ত অন্যান্য পদ্ধতির জন্য হৃদয় দিয়ে জানি না, তবে সংখ্যালঘু শ্রেণির উপর নজর দেওয়া প্রতিটি পদ্ধতির জন্য কাজ করে (যদিও এটি গাণিতিকভাবে মার্জিত নয়)।
মার্ক ক্লেসেন

1
দুর্দান্ত, ধন্যবাদ ডিক্রান মার্ক: হ্যাঁ, সাধারণ ওভারস্যাম্পলিং সাধারণভাবে কাজ করে। যাইহোক, এটি পরিস্থিতির উপর নির্ভর করে। যা ঘটেছিল তা হল আপনি যখন সংখ্যালঘুটিকে ওভারস্প্যাম্পিং করছেন তখন আপনি সংখ্যালঘু ডেটাতে "ওজন" যুক্ত করছেন (একই স্থানে সংখ্যালঘু পয়েন্টগুলি পুনরাবৃত্তি করে বার বার করুন)। এটি মূলত সংখ্যালঘু উদাহরণের "বিবেচনা" উন্নত করতে সহায়তা করে। তবে শ্রেণিবিন্যাসের সিদ্ধান্তের সীমানাটি তখন বেশ উত্তেজনাপূর্ণ হয়ে উঠবে (যথেষ্ট সাধারণ নয়), ওভার-ফিটিং হতে পারে)। অতএব, আমাদের স্মোটের মতো কিছু সম্ভাব্য নমুনা কৌশল বিবেচনা করতে হবে।
রকটিস্টার

10

এসভিএমগুলি ভারসাম্যহীন শ্রেণীর ফ্রিকোয়েন্সি সহ ডেটাসেটগুলির সাথে ডিল করতে সক্ষম হয়। অনেকগুলি বাস্তবায়ন আপনাকে ইতিবাচক এবং নেতিবাচক শ্রেণীর জন্য স্লাক পেনাল্টির (সি) আলাদা মূল্য রাখতে দেয় (যা সংক্ষিপ্তভাবে শ্রেণীর ফ্রিকোয়েন্সি পরিবর্তনের সমতুল্য)। আমি এই প্যারামিটারগুলির মানগুলি সেট করার পরামর্শ দিচ্ছি যাতে কোনও টেস্ট সেটটিতে সাধারণকরণের কর্মক্ষমতা সর্বাধিক হয় যেখানে শ্রেণিক ফ্রিকোয়েন্সিগুলি অপারেশনাল ব্যবহারে আপনি যে প্রত্যাশা আশা করেন are

আমি অনেক লোকের মধ্যে যারা এই বিষয়ে কাগজপত্র লিখেছিলেন তাদের মধ্যে একজন ছিল, এখানে আমার , আমি আরও সাম্প্রতিক / আরও ভাল কিছু খুঁজে পেতে পারি কিনা তা আমি দেখতে পাব। ভেরোপৌলস, ক্যাম্পবেল এবং ক্রিস্টিয়িনি (1999) চেষ্টা করুন


ডিকরান কেন এটি কেবলমাত্র তাত্পর্যপূর্ণ সমতুল্য ... অবশ্যই এটি বিভিন্ন শ্রেণীর ত্রুটিগুলি আলাদাভাবে ওজন করার সমান?
seanv507

এটি শ্রেণীর ত্রুটিগুলি ওজন করার সমতুল্য, তবে তথ্যটি পুনঃনির্মাণের মতো একই জিনিস নয় (শুরু করার জন্য ওজন ক্রমাগত পরিবর্তনশীল হয়, তবে ডেটা পৃথক হয়)। এটি asympotic প্রত্যাশার ফলাফলগুলির মধ্যে একটি (এটি বেশিরভাগ পরিস্থিতিতে বিশেষভাবে কার্যকর বলে মনে হয় না)।
ডিকরান মার্শুপিয়াল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.