বিরল ইভেন্ট ভবিষ্যদ্বাণীপূর্ণ মডেলগুলির জন্য ওভারস্যাম্পলিংয়ের সাথে ব্যাগিং


13

নিম্নলিখিতটি বর্ণিত হয়েছে কিনা এবং (যে কোনও উপায়ে) যদি খুব ভারসাম্যহীন টার্গেট ভেরিয়েবলের সাথে ভবিষ্যদ্বাণীপূর্ণ মডেল শেখার জন্য যদি কল্পনাযোগ্য পদ্ধতি বলে মনে হয় তবে কি কেউ জানেন?

প্রায়শই ডেটা মাইনিংয়ের সিআরএম অ্যাপ্লিকেশনগুলিতে আমরা এমন একটি মডেল সন্ধান করব যেখানে সংখ্যাগরিষ্ঠ (নেতিবাচক শ্রেণির) তুলনায় ইতিবাচক ঘটনা (সাফল্য) খুব বিরল। উদাহরণস্বরূপ, আমার কাছে 500,000 উদাহরণ থাকতে পারে যেখানে কেবল 0.1% ইতিবাচক শ্রেণীর (যেমন গ্রাহক কেনা) of সুতরাং, একটি ভবিষ্যদ্বাণীপূর্ণ মডেল তৈরি করার জন্য, একটি পদ্ধতি হ'ল ডেটা নমুনা করা যার মাধ্যমে আপনি সমস্ত ধনাত্মক শ্রেণীর দৃষ্টান্ত রাখেন এবং কেবলমাত্র নেতিবাচক শ্রেণির উদাহরণের নমুনা রাখেন যাতে ধনাত্মক থেকে নেতিবাচক শ্রেণীর অনুপাত 1 এর কাছাকাছি হয় (সম্ভবত 25%) 75% ধনাত্মক থেকে নেতিবাচক)। ওভার স্যাম্পলিং, আন্ডার স্যাম্পলিং, স্মোট ইত্যাদি এগুলি সাহিত্যের সমস্ত পদ্ধতি।

আমি যে বিষয়ে আগ্রহী তা হ'ল উপরের বেসিক স্যাম্পলিং কৌশলটি সংযুক্ত করা কিন্তু নেতিবাচক শ্রেণীর ব্যাগিংয়ের সাথে ome কিছু সহজভাবে যেমন:

  • সমস্ত ধনাত্মক শ্রেণীর দৃষ্টান্ত রাখুন (উদাহরণস্বরূপ 1,000)
  • ভারসাম্য নমুনা তৈরি করার জন্য নেতিবাচক সংঘর্ষের উদাহরণগুলির নমুনা (উদাহরণস্বরূপ 1,000)।
  • মডেল ফিট
  • পুনরাবৃত্তি

এর আগে কি কেউ শুনছেন? ব্যাগিংয়ের ব্যতীত যে সমস্যাটি মনে হয় তা হ'ল 500,000 থাকা অবস্থায় নেতিবাচক শ্রেণীর কেবলমাত্র 1,000 টি উদাহরণ স্যাম্পলিং করা হ'ল ভবিষ্যদ্বাণীকারী স্থানটি অপ্রয়োজনীয় এবং আপনার সম্ভাব্য ভবিষ্যদ্বাণীমূলক মান / নিদর্শনগুলির উপস্থাপনা নাও পেতে পারেন। ব্যাগিং এটিকে সাহায্য করবে বলে মনে হচ্ছে।

আমি আরপিআর্টের দিকে তাকিয়েছিলাম এবং কিছুই "ব্রেক" করে না যখন নমুনাগুলির মধ্যে একটিতে ভবিষ্যদ্বাণীকারীর জন্য সমস্ত মান থাকে না (তখন সেই ভবিষ্যদ্বাণীকারী মানগুলির সাথে উদাহরণগুলির পূর্বাভাস দেওয়ার সময় ভাঙা হয় না:

library(rpart)
tree<-rpart(skips ~ PadType,data=solder[solder$PadType !='D6',], method="anova")
predict(tree,newdata=subset(solder,PadType =='D6'))

কোন চিন্তা?

আপডেট: আমি একটি বাস্তব বিশ্বের ডেটা সেট নিয়েছি (বিপণন ডাইরেক্ট মেল প্রতিক্রিয়া ডেটা) এবং এলোমেলোভাবে এটিকে প্রশিক্ষণ এবং বৈধকরণে বিভক্ত করেছি। 618 ভবিষ্যদ্বাণীকারী এবং 1 বাইনারি লক্ষ্য (খুব বিরল) রয়েছে।

Training:
Total Cases: 167,923
Cases with Y=1: 521

Validation:
Total Cases: 141,755
Cases with Y=1: 410

আমি প্রশিক্ষণের সেট থেকে সমস্ত ইতিবাচক উদাহরণ (521) এবং ভারসাম্যপূর্ণ নমুনার জন্য একই আকারের নেতিবাচক উদাহরণগুলির এলোমেলো নমুনা নিয়েছি। আমি একটি rpart গাছ ফিট:

models[[length(models)+1]]<-rpart(Y~.,data=trainSample,method="class")

আমি এই প্রক্রিয়াটি 100 বার পুনরাবৃত্তি করেছি। তারপরে এই 100 টি মডেলের প্রতিটিটির জন্য বৈধতা নমুনার ক্ষেত্রে Y = 1 এর সম্ভাব্যতার পূর্বাভাস। চূড়ান্ত প্রাক্কলনের জন্য আমি কেবলমাত্র 100 সম্ভাব্যতার গড়পড়তা। আমি বৈধতা সেটটিতে সম্ভাব্যতাগুলি কেটে ফেলেছি এবং প্রতিটি সিদ্ধান্তে Y = 1 (মডেলটির র‌্যাঙ্কিংয়ের সক্ষমতা নির্ধারণের জন্য traditionalতিহ্যবাহী পদ্ধতি) কত শতাংশের ক্ষেত্রে গণনা করেছি।

Result$decile<-as.numeric(cut(Result[,"Score"],breaks=10,labels=1:10)) 

এখানে অভিনয়: এখানে চিত্র বর্ণনা লিখুন

এটি কোনও ব্যাগিংয়ের সাথে কীভাবে তুলনা করা হয়েছে তা দেখতে, আমি কেবলমাত্র প্রথম নমুনা (সমস্ত ধনাত্মক কেস এবং একই আকারের এলোমেলো নমুনা) সহ বৈধতা নমুনার পূর্বাভাস দিয়েছিলাম। স্পষ্টতই, নমুনাযুক্ত ডেটা হোল্ড আউট বৈধকরণের নমুনায় কার্যকর হওয়ার জন্য খুব বিচ্ছিন্ন বা ওভারফিট।

বিরল ইভেন্ট এবং বৃহত্তর এন এবং পি হয় যখন ব্যাগিং রুটিন এর কার্যকারিতা প্রস্তাব।

এখানে চিত্র বর্ণনা লিখুন

উত্তর:


7

প্রতিটি ব্যাগে একই ধনাত্মক শ্রেণীর উদাহরণ অন্তর্ভুক্ত করা বাদে এটি এস ^ 3 ব্যাগিংয়ে এস ^ 3 ব্যাগিংয়ে বর্ণিত রয়েছে : সাবসিম্পলিং এবং ব্যাগিং সহ ফাস্ট ক্লাসিফায়ার আনয়ন পদ্ধতি । (আমি এই কাগজটি গভীরতার সাথে পর্যালোচনা করি নি, কেবল এটি স্কিম করে রেখেছি))

আমি আপনার পদ্ধতির সাথে তাত্ত্বিকভাবে কিছুই দেখতে পাচ্ছি না, যদিও আমি ব্যাগিংয়ের চেয়ে উত্সাহদানের সাথে মিলিত হয়ে প্রায়শই ঘন ঘন সাবমলিং দেখেছি।

এটি সম্ভবত আপনার প্রশ্নের সমাধান করতে পারে না, তবে ভারসাম্যহীন ডেটা নিয়ে কাজ করার বিভিন্ন উপায় নিয়ে একটি দুর্দান্ত কাগজ হ'ল ভারসাম্যহীন ডেটা থেকে শিখতে । এটি ব্যয় সংবেদনশীল শেখার মতো সিলগুলি আপনার ক্ষেত্রে আরও উপযুক্ত হতে পারে। যেহেতু আপনি সিদ্ধান্ত বন ব্যবহার করছেন তাই বিভাগ ৩.২.৩ ব্যয়-সংবেদনশীল সিদ্ধান্ত গাছগুলি সম্ভবত সহায়ক হবে। এতে বলা হয়েছে,

সিদ্ধান্ত গাছের ক্ষেত্রে, ব্যয়-সংবেদনশীল ফিটিং তিনটি ফর্ম নিতে পারে: প্রথমত, দামের সংবেদনশীল সমন্বয়গুলি সিদ্ধান্তের দোরগোড়ায় প্রয়োগ করা যেতে পারে; দ্বিতীয়ত, প্রতিটি নোডে বিভাজনের মানদণ্ডে ব্যয়-সংবেদনশীল বিবেচনা দেওয়া যেতে পারে; এবং সবশেষে, ব্যয়-সংবেদনশীল ছাঁটাই প্রকল্পগুলি গাছটিতে প্রয়োগ করা যেতে পারে

সিদ্ধান্তের দোরগোড়ায় ব্যয় সংবেদনশীল সামঞ্জস্যের অর্থ মূলত আরওসি বা যথার্থ-পুনর্বিবেচনা বক্ররেখার পারফরম্যান্সের ভিত্তিতে আপনার সিদ্ধান্তের দোরগোছা বাছাই। বিশেষত PRC এর কার্যকারিতা ভারসাম্যহীন ডেটা শক্ত।

ভারসাম্যহীন ডেটা নিয়ে কাজ করার জন্য ব্যয় সংবেদনশীল বিভাজনের মানদণ্ড আপনার অপরিষ্কার কার্যকারিতাটি পরিবর্তন করতে আসে। উপরোক্ত কাগজের বিবরণে বলা হয়েছে,

[]৩] ইন, তিনটি নির্দিষ্ট অপরিষ্কার কার্যকারিতা, গিনি, এন্ট্রপি এবং ডেকেএম যথাযথতা / ত্রুটি হারের বেসলাইনটির তুলনায় ব্যয় সংবেদনশীলতা উন্নত করে দেখানো হয়েছিল। তদুপরি, এই অভিজ্ঞতামূলক পরীক্ষাগুলিতে আরও প্রমাণিত হয়েছিল যে ডিকেএম ফাংশনটি ব্যবহার করে সাধারণত ছোট্ট অরক্ষিত সিদ্ধান্ত গৃহ উত্পাদন করা হয় যা গিনি এবং এন্ট্রপির সাথে তুলনীয় আরও খারাপ সরবরাহ সরবরাহ করে। এই অনুভূতিমূলক ফলাফলের উপসংহারটি ব্যাখ্যা করার জন্য একটি তাত্ত্বিক ভিত্তি পরবর্তীকালে [49] সালে প্রতিষ্ঠিত হয়েছিল, যা থুতু মানদণ্ডের যে কোনও পছন্দের জন্য সিদ্ধান্ত গাছ বৃদ্ধির প্রভাবকে সাধারণীকরণ করে।

ছাঁটাই হিসাবে

তবে ভারসাম্যহীন উপাত্তের উপস্থিতিতে ছাঁটাই পদ্ধতিতে সংখ্যালঘু ধারণাটি বর্ণনা করে এমন পাতাগুলি সরিয়ে ফেলা হয়। এটি দেখানো হয়েছে যে ভারসাম্যহীন ডেটা দ্বারা প্রণীত ছাঁটাই করা গাছগুলি কর্মক্ষমতা বাধাগ্রস্থ করতে পারে, তবে এই ক্ষেত্রে অরক্ষিত গাছ ব্যবহার করা কর্মক্ষমতা উন্নত করে না [২৩]। ফলস্বরূপ, প্রতিটি নোডে শ্রেণিক সম্ভাবনা অনুমানের উন্নতির দিকে মনোযোগ দেওয়া হয়েছে যাতে আরও প্রতিনিধি সিদ্ধান্ত গাছের কাঠামো বিকাশ করা যায় যাতে ছাঁটাইকে ইতিবাচক প্রভাব প্রয়োগ করা যায়। কিছু প্রতিনিধিত্বমূলক কাজের মধ্যে সম্ভাব্যতা অনুমানের ল্যাপ্লেস স্মুথিং পদ্ধতি এবং ল্যাপ্লেস ছাঁটাই করার কৌশল [49] অন্তর্ভুক্ত।

[২৩] এন। জাককোভিজ এবং এস স্টিফেন, "ক্লাস ভারসাম্য সমস্যা: একটি সিস্টেমেটিক স্টাডি," ইন্টেলিজেন্ট ডেটা অ্যানালাইসিস, খণ্ড vol 6, না। 5, পৃষ্ঠা 429- 449, 2002।

[49] সি এলকান, "ব্যয় সংবেদনশীল শিক্ষার ভিত্তি," প্রক। আন্তঃ যৌথ কনফারেন্স কৃত্রিম বুদ্ধি, পিপি 973-978, 2001।

[]৩] সি ড্রামন্ড এবং আরসি হোল্ট, "সিদ্ধান্তের গাছের বিভাজনের মানদণ্ডের সংবেদনশীলতা," ব্যয়কে শোষণ করা, "প্রোক oc কনফারেন্স মেশিন লার্নিং, পৃষ্ঠা 239-246, 2000।


0

এটা খুবই আকর্ষণীয়. আমার সম্প্রতি একটি প্রকল্প রয়েছে যার অনুরূপ পরিস্থিতি রয়েছে যেখানে বিরল ইভেন্টগুলির বৈধতা ভাল সম্পাদন করে যখন সর্বনিম্ন পূর্বাভাসিত পরিসরে নন-ইভেন্টগুলির বৈধতা (যেমন 0.0 - 0.1) মাসব্যাপী অস্থির মাসে সম্পাদিত হয়। পিছনে কারণগুলি যেমন আপনি উল্লেখ করেছেন যে অ ইভেন্টগুলির বৃহত জনসংখ্যার কারণে প্রশিক্ষণ সংস্থাগুলিতে আরও বেশি নমুনা অন্তর্ভুক্ত করা ভাল, যাতে ভেরিয়েবলের বিভিন্ন সংমিশ্রণের জন্য পর্যাপ্ত নমুনা থাকে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.