রিগ্রেশনে ভারসাম্যহীন ডেটার জন্য নমুনা


22

শ্রেণিবদ্ধকরণ প্রসঙ্গে ভারসাম্যহীন ডেটা পরিচালনা করার বিষয়ে ভাল প্রশ্ন রয়েছে , তবে আমি ভাবছি যে লোকেরা রিগ্রেশনের জন্য নমুনা দেওয়ার জন্য কী করে।

সমস্যা ডোমেনটি লক্ষণটির প্রতি খুব সংবেদনশীল তবে লক্ষ্যমাত্রার মাত্রায় কিছুটা সংবেদনশীল বলুন। তবে তাত্পর্যটি যথেষ্ট গুরুত্বপূর্ণ যে মডেলটি রিগ্রেশন হওয়া উচিত (ধারাবাহিক লক্ষ্য) শ্রেণিবিন্যাস নয় (ইতিবাচক বনাম নেতিবাচক ক্লাস)। এবং এই সমস্যা ডোমেনে বলুন যে কোনও প্রশিক্ষণের ডেটাতে ধনাত্মক লক্ষ্যগুলির চেয়ে 10x বেশি নেতিবাচক থাকবে।

এই পরিস্থিতিতে, আমি নেতিবাচক-লক্ষ্য উদাহরণগুলির গণনার সাথে মেলে ইতিবাচক-টার্গেটের উদাহরণগুলি ওপরে নমুনা করতে পারি এবং তারপরে দুটি ক্ষেত্রে পৃথক করতে একটি মডেলকে প্রশিক্ষণ দিতে পারি। স্পষ্টতই প্রশিক্ষণের পদ্ধতির ভারসাম্যহীন ডেটাগুলিতে খারাপভাবে কাজ করে, সুতরাং আমার কোনও ধরণের নমুনা করা দরকার। ভবিষ্যদ্বাণী করার সময় এই ওভারস্যাম্পলিংকে "পূর্বাবস্থায় ফেলার" জন্য একটি শালীন উপায় কী হবে? সম্ভবত (trainingণাত্মক) দ্বারা অনুবাদ করা বা প্রাকৃতিক প্রশিক্ষণের ডেটার লক্ষ্যটির মধ্যস্থতার মধ্য দিয়ে?

উত্তর:


15

ভারসাম্যহীনতা অগত্যা কোনও সমস্যা নয় তবে আপনি কীভাবে সেখানে যাবেন তা হতে পারে। আপনার নমুনা কৌশলটি টার্গেট ভেরিয়েবলের ভিত্তিতে ভিত্তি করে নেওয়া অসম্পূর্ণ। কারণ এই পরিবর্তনশীলটি আপনার রিগ্রেশন মডেলটিতে এলোমেলোভাবে অন্তর্ভুক্ত করে, যদি আপনি এর উপর ভিত্তি করে নমুনা তৈরি করেন তবে আপনার কোনও ধরণের অনুমিতি করতে বড় সমস্যা হবে। আমি সন্দেহ করি যে এই সমস্যাগুলিকে "পূর্বাবস্থায় ফেলা" সম্ভব।

আপনি বৈধভাবে পূর্বাভাসীর ভেরিয়েবলগুলির উপর ভিত্তি করে ওভার-বা স্যাম্পলের নীচে পারেন । এই ক্ষেত্রে, আপনি যদি যত্ন সহকারে পরীক্ষা করে দেখুন যে মডেল অনুমানগুলি বৈধ বলে মনে হচ্ছে (যেমন সমকামী ধারণা যা এই পরিস্থিতিতে গুরুত্বপূর্ণ মনে করে, যদি আপনার কাছে ইউসুয়াল অনুমানের সাথে "সাধারণ" রিগ্রেশন থাকে) তবে আমার মনে হয় না আপনার প্রয়োজন ভবিষ্যদ্বাণী করার সময় ওভারস্যাম্পলিংয়ে পূর্বাবস্থায় ফিরে যান। আপনার কেস এখন একজন বিশ্লেষকের মতো হবে যিনি ভবিষ্যদ্বাণী ভেরিয়েবলের ভারসাম্যপূর্ণ পরিসীমা রাখতে স্পষ্টভাবে একটি পরীক্ষা ডিজাইন করেছেন।

সম্পাদনা - সংযোজন - ওয়াইয়ের উপর ভিত্তি করে নমুনায় কেন খারাপ তা নিয়ে সম্প্রসারণ

Y=এক্স+ +এক্স) ই এর আর শূন্য অর্থ হবে না বা অভিন্নভাবে বিতরণ করা হবে। উদাহরণস্বরূপ, y এর কম মান যা ই এর খুব নিম্ন মানের অন্তর্ভুক্ত হতে পারে তা নির্বাচিত হওয়ার সম্ভাবনা কম। এই জাতীয় মডেল ফিট করার স্বাভাবিক উপায়ের উপর ভিত্তি করে কোনও অনুমান নষ্ট করে দেয়। সংশোধনগুলি কাটা মডেলগুলি ফিটিংয়ের জন্য একনোমেট্রিক্সের মতো তৈরি করা যেতে পারে তবে এটি একটি ব্যথা এবং অতিরিক্ত অনুমানের প্রয়োজন, এবং যখন কোনও বিকল্প নেই তখনই নিযুক্ত করা উচিত।

নীচে চরম চিত্র বিবেচনা করুন। যদি আপনি প্রতিক্রিয়া ভেরিয়েবলের জন্য একটি স্বেচ্ছাচারিতায় আপনার ডেটা কেটে দেন তবে আপনি খুব তাৎপর্যপূর্ণ পক্ষপাতিত্ব প্রবর্তন করেন। আপনি যদি এটি ব্যাখ্যামূলক পরিবর্তনশীল হিসাবে ছাঁটাই করেন তবে অগত্যা কোনও সমস্যা নেই। আপনি দেখতে পাচ্ছেন যে সবুজ রেখাটি তাদের ভবিষ্যদ্বাণীমূলক মানগুলির কারণে নির্বাচিত সাবসেটের ভিত্তিতে প্রকৃত লাগানো লাইনের খুব কাছাকাছি; এটি কেবল নীল পয়েন্টের ভিত্তিতে নীল রেখা সম্পর্কে বলা যায় না।

এটি আন্ডার বা ওভারস্যাম্পলিংয়ের কম গুরুতর ক্ষেত্রে প্রসারিত হয় (কারণ কাটা কাটাটিকে তার যৌক্তিক চরমের দিকে নেওয়া আন্ডার স্যাম্পলিং হিসাবে দেখা যায়)।

এখানে চিত্র বর্ণনা লিখুন

# generate data
x <- rnorm(100)
y <- 3 + 2*x + rnorm(100)

# demonstrate
plot(x,y, bty="l")
abline(v=0, col="grey70")
abline(h=4, col="grey70")
abline(3,2, col=1)
abline(lm(y~x), col=2)
abline(lm(y[x>0] ~ x[x>0]), col=3)
abline(lm(y[y>4] ~ x[y>4]), col=4)
points(x[y>4], y[y>4], pch=19, col=4)
points(x[x>0], y[x>0], pch=1, cex=1.5, col=3)
legend(-2.5,8, legend=c("True line", "Fitted - all data", "Fitted - subset based on x",
    "Fitted - subset based on y"), lty=1, col=1:4, bty="n")

উত্তরের জন্য ধন্যবাদ, পিটার। "দয়া করে এই পরিবর্তনশীলটি আপনার রিগ্রেশন মডেলটিতে এলোমেলোভাবে অন্তর্ভুক্ত করে" এর অর্থ কী তা কী আপনি দয়া করে ব্যাখ্যা করতে পারেন? লক্ষ্যটি পরিবেশে একটি পর্যবেক্ষণযোগ্য, সুতরাং আপনার অর্থ কি পরিমাপের ত্রুটি?
সোমেন

1
এখানে ইস্যুতে ফস্টার প্রোভাস্ট নামের এনওয়াইইউ প্রফেসরের একটি কাগজ রয়েছে: পেজ.সটার.ইনু.ইডু / এফপ্রোভোস্ট / পেপারস / এসকিউ.পিডিএফ আমার ক্ষেত্রে, আমি ভারসাম্যহীন ডেটা দিয়ে রেগ্রেশন করছি, শ্রেণিবদ্ধকরণ নয়। সুতরাং আমার প্রশ্ন।
সোমবার

1
@ সোমেবেন - আমি একটি উদাহরণ ব্যাখ্যা করেছি এবং যুক্ত করেছি। এটি রিগ্রেশন সাহিত্যে ভালভাবে বর্ণিত হয়েছে যে আপনি নির্ভরশীল ভেরিয়েবলের ভিত্তিতে নমুনা করতে পারবেন না। এটি অন্যান্য মডেলের ক্ষেত্রেও প্রযোজ্য। "ভারসাম্যহীন" একটি নমুনা একটি ভিন্ন ধরণের জিনিস এবং কোনও সমস্যা নয়; যদি না আপনি ইচ্ছাকৃতভাবে এটি একটি যুক্তিযুক্ত নমুনা কৌশল দ্বারা তৈরি না করে। এটি ভারসাম্য বা অভাব সমস্যা নয়, তবে আপনি কীভাবে আপনার ডেটা পাবেন।
পিটার এলিস

2
@ সোমেন, না, আমি মনে করি না যে এটি কোনও পার্থক্য করে। বিষয়টি তার চেয়েও বেশি মৌলিক।
পিটার এলিস

1
চমৎকার উদাহরণ! আপনার গ্রাফটি আমাকে নমুনা নির্বাচনের পক্ষপাতিত্বের উপর রিচার্ড বার্কের (1983) একটি কাগজ মনে করিয়ে দেয় । এছাড়াও লক্ষণীয়, আপনি যদি সেই নমুনা বাছাইয়ের প্রক্রিয়াটি স্পষ্টভাবে জানেন তবে আপনি সেই সমস্যাগুলিকে "পূর্বাবস্থায়িত" করতে পারেন এবং সেই ধারণার চারপাশে নির্মিত একনোমেট্রিক মডেল রয়েছে (যেমন টোবাইট মডেল বা জেমস হেকম্যানের কাজ)।
অ্যান্ডি ডাব্লু

2

আপনি কার্যকারণ বিশ্লেষণ করছেন বা ভবিষ্যদ্বাণী করছেন কিনা এটি একটি প্রশ্ন। পড়ুন http://m.statisticalhorizons.com/?ref=http%3A%2F%2Ft.co%2F54MWZrVAyX&url=http%3A%2F%2Fstatisticalhorizons.com%2Fprediction-vs-causation-in-regression-analysis&width=640

পূর্বাভাসের উদ্দেশ্যে প্রশিক্ষণের জন্য টার্গেট ভেরিয়েবলের পুনরায় মডেলিং ততক্ষণ কাজ করে যতক্ষণ না পুনরায় সেরকম মডেল রাখার নমুনা পরীক্ষা করে। চূড়ান্ত পারফরম্যান্সের চার্টটি অবশ্যই হোল্ড আউটের উপর ভিত্তি করে তৈরি করা উচিত। মডেলটির পূর্বাভাসযোগ্যতা নির্ধারণে সবচেয়ে নির্ভুলতার জন্য, ক্রস বৈধকরণের কৌশলগুলি নিযুক্ত করা উচিত।

রিগ্রেশন মডেলটির চূড়ান্ত বিশ্লেষণ করে এবং ভারসাম্যহীন ডেটা সেটটিতে আপনি "পূর্বাবস্থায় ফিরে যান"।


2

এটি আপনার সমস্যার ব্যবহারিক সমাধান দেওয়ার চেষ্টা নয়, তবে আমি কেবল রিগ্রেশন সমস্যায় ভারসাম্যহীন ডেটাসেট নিয়ে কাজ করার বিষয়ে কিছুটা গবেষণা করেছি এবং আমার ফলাফলগুলি ভাগ করে নিতে চেয়েছি:


1

প্রথমত, 1:10 রেশন মোটেই খারাপ নয়। নমুনা পূর্বাবস্থায় ফেলার সহজ উপায় রয়েছে-

1) শ্রেণিবিন্যাস সমস্যার জন্য, আপনি যদি কোনও নেতিবাচক শ্রেণিকে 10 দ্বারা উপ-নমুনা করেন তবে ফলস্বরূপ সম্ভাবনাটি যা হওয়া উচিত তার চেয়ে 10 গুণ বেশি। আপনি সম্ভবত 10 দ্বারা বিভাজন ফলস্বরূপ সম্ভাবনা (মডেল পুনরায় ক্রমাঙ্কন হিসাবে পরিচিত)

২) ফেসবুকও সাব-স্যাম্পল (লজিস্টিক রিগ্রেশনে ক্লিকের পূর্বাভাসের জন্য) এবং নেতিবাচক ডাউন স্যাম্পলিং করে। পুনরুক্তি সরল সূত্র পি / (পি + (1-পি) / ডাব্লু) দ্বারা করা হয়; যেখানে পি ডাউনস্যাম্পলিংয়ে পূর্বাভাস রয়েছে, এনডাব্লু নেতিবাচক ডাউন স্যাম্পলিং হার।


আমি মনে করি না এটি এতো সহজ, অর্পিত। অনেক ননলাইনার অ্যালগোস আন্ডার স্যাম্পল্ড ক্লাসের পর্যাপ্ত দৃষ্টান্ত দেখতে পায় না এবং ওভারস্যাম্পলড শ্রেণীর দিকে ঝুঁকতে থাকে এবং তাদের অনৈখিকতার কারণে আপনার এটি ঠিক করার উপায় থাকবে না।
আনাতোলি আলেকসিভ

1

আমি মনে করি আপনার সমস্যার সমাধানে যা আপনাকে সহায়তা করতে পারে তা হ'ল সিনথেটিক সংখ্যালঘু ওভার-স্যাম্পলিং টেকনিক برائے ফর রিগ্রেশন (এসএমওটার)। এই বিষয়ে কিছু গবেষণা আছে। তবে এটির শ্রেণিবিন্যাসের তুলনায় এটি কম অন্বেষণ করা থেকে যায়, যেমনটি আপনি সম্ভবত সম্মুখীন হয়েছেন likely

আমি নীচে উদ্ধৃত কাগজটির পরামর্শ দিতে পারি (এবং এটি সম্মেলনটি http://proceedings.MLr.press/v74/ এ উপস্থাপিত হয়েছিল)গবেষণার দৃষ্টিকোণ থেকে আপনি এটি বুঝতে কত আগ্রহী তার উপর নির্ভর করে )সিন্থেটিক পর্যবেক্ষণ তৈরিতে আমি গাউসিয়ান শব্দের প্রবর্তনকে সত্যিই প্রশংসা করেছি।

আপনি যদি ব্যবহারিক সমাধানে আরও আগ্রহী হন তবে প্রথম লেখকের কাছে তার গিথুব পৃষ্ঠায় একটি আর বাস্তবায়ন রয়েছে। https://github.com/paobranco/SMOGN-LIDTA17

পাইথন যদি আপনার প্ররোচিত হয় তবে আমি সম্প্রতি এসএমওজিএন অ্যালগরিদমের সম্পূর্ণ পাইথোনিক বাস্তবায়ন বিতরণ করেছি যা এখন উপলভ্য এবং বর্তমানে ইউনিট পরীক্ষিত। https://github.com/nickkunz/smogn

আমি আশা করি এটি সাহায্য করেছে!

ব্র্যাঙ্কো, পি।, টর্গো, এল।, রিবেইরো, আর। (2017)। "এসএমওজিএন: ভারসাম্যহীন রিগ্রেশনের জন্য প্রাক প্রক্রিয়াজাতকরণ পদ্ধতি"। মেশিন লার্নিং রিসার্চের কার্যক্রম, 74: 36-50। http://proceedings.MLr.press/v74/branco17a/branco17a.pdf

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.