আমি আপনার প্রশ্নের বিপরীত ক্রমে উত্তর দেব যাতে আপনি তাদের জিজ্ঞাসা করেছিলেন, যাতে এক্সপোশনটি নির্দিষ্ট থেকে সাধারণের দিকে এগিয়ে যায়।
প্রথমে আসুন আমরা এমন একটি পরিস্থিতি বিবেচনা করি যেখানে আপনি ধরে নিতে পারেন যে সংখ্যালঘু সম্প্রদায়ের সংখ্যালঘু ব্যতীত, আপনার ডেটার বেশিরভাগ অংশ একটি পরিচিত বিতরণ (আপনার ক্ষেত্রে ক্ষতিকারক) দ্বারা ভালভাবে বর্ণনা করা যেতে পারে।
x
pX(x)=σ−1exp(−(x−θ)σ),x>0;σ>0
xθ=0
প্যারামিটারগুলির স্বাভাবিক এমএলই অনুমানকারী হ'ল [0, পি 506]:
θ^=minixi
এবং
σ^=aveixi−minixi
এখানে একটি উদাহরণ দেওয়া হল R
:
n<-100
theta<-1
sigma<-2
set.seed(123) #for reproducibility
x<-rexp(n,rate=1/sigma)+theta
mean(x)-min(x)
σ≈2.08
xi−xi
m<-floor(0.2*n)
y<-x
y[1:m]<--y[1:m]
mean(y)-min(y)
σ≈11.12xi100xi
m<-floor(0.2*n)
z<-x
z[1:m]<-100*z[1:m]
mean(z)-min(z)
σ≈54 (!)।
কাঁচা এমএলএর বিকল্প হ'ল (ক) শক্তিশালী আউটলেট সনাক্তকারী বিধি ব্যবহার করে বিদেশী খুঁজে পাওয়া , (খ) এটিকে উত্সাহী ডেটা হিসাবে আলাদা করা এবং (গ) নমুনার অপ্রয়োজনীয় অংশে এমএলই গণনা করা।
এই শক্তিশালী আউটলেট সনাক্তকারী বিধিটির মধ্যে সবচেয়ে সুপরিচিত হ'ল হাম্পেল প্রস্তাবিত মেড / পাগল বিধি [3] যিনি এটিকে গসকে দায়ী করেছিলেন (আমি এই নিয়মটি এখানে চিত্রিত করেছি) )। মেড / পাগল নিয়মে, প্রত্যাখ্যানের প্রান্তিকতা আপনার অনুমানের সত্যিকারের পর্যবেক্ষণগুলি একটি সাধারণ বিতরণের মাধ্যমে খুব ভালভাবে অনুমান করা হয়েছে এমন ধারণার উপর ভিত্তি করে।
অবশ্যই, যদি আপনার অতিরিক্ত তথ্য থাকে (যেমন জেনে রাখা যে সত্যিকারের পর্যবেক্ষণগুলির বিতরণটি উদাহরণ হিসাবে যেমন পোয়েসন বিতরণ দ্বারা সন্নিহিত ) তখন আপনার ডেটা রুপান্তর করা এবং বেসলাইন বহিরাগত প্রত্যাখ্যান নিয়ম ব্যবহার করা থেকে আপনার বাধা দেওয়ার কিছুই নেই ( মেড / পাগল) তবে এটি অ্যাড-হকের সমস্ত নিয়মের পরে যা আছে তা সংরক্ষণের জন্য ডেটা রুপান্তর করতে কিছুটা বিশ্রী হিসাবে আমাকে আঘাত করে।
ডেটা সংরক্ষণ করা কিন্তু প্রত্যাখ্যানের নিয়মগুলি মানিয়ে নেওয়া আমার কাছে অনেক বেশি যৌক্তিক মনে হয়। তারপরে, আপনি উপরের প্রথম লিঙ্কে বর্ণিত 3 পদক্ষেপের পদ্ধতিটি আপনি এখনও ব্যবহার করবেন তবে প্রত্যাখ্যানের দ্বারটি বিতরণে অভিযোজিত হবে যা আপনি সন্দেহ করছেন যে ডেটাটির ভাল অংশ রয়েছে। নীচে, আমি এমন পরিস্থিতিতে প্রত্যাখ্যানের নিয়ম দিই যেখানে খাঁটি পর্যবেক্ষণগুলি কোনও তাত্পর্যপূর্ণ বিতরণ দ্বারা ভালভাবে সজ্জিত হয়। এই ক্ষেত্রে, আপনি নিম্নোক্ত নিয়মটি ব্যবহার করে ভাল প্রত্যাখ্যানের চৌম্বকটি তৈরি করতে পারেন:
θ
θ^′=medixi−3.476Qn(x)ln2
Qn বিচ্ছুরণের একটি শক্তিশালী অনুমান যা প্রতিসামগ্রী তথ্যের দিকে লক্ষ্য করা যায় না। এটি ব্যাপকভাবে প্রয়োগ করা হয়, উদাহরণস্বরূপ আর প্যাকেজ রোবস্টবেসে । তাত্পর্যপূর্ণ বিতরণ করা তথ্যের জন্য, Qn এর ধারাবাহিকতা গুণক দ্বারা গুণিত হয়≈3.476 , আরও তথ্যের জন্য [1] দেখুন।
2) জালিয়াতিযুক্ত সমস্ত পর্যবেক্ষণ [2, পি 188] এর বাইরে প্রত্যাখ্যান করুন
[θ^′,9(1+2/n)medixi+θ^′]
(উপরের নিয়মে 9 টি ফ্যাক্টরটি উপরের গ্লেন_ বি এর উত্তরের 7.1 হিসাবে প্রাপ্ত, তবে উচ্চতর কাট অফ ব্যবহার করে The বড় পরিমাণে নমুনা আকারের জন্য এটি মূলত 1 এর সমান)।
σ
σ^′=avei∈Hxi−mini∈Hxi
H={i:θ^′≤xi≤9(1+2/n)medixi+θ^′} ।
পূর্ববর্তী উদাহরণগুলিতে এই নিয়মটি ব্যবহার করে আপনি পাবেন:
library(robustbase)
theta<-median(x)-Qn(x,constant=3.476)*log(2)
clean<-which(x>=theta & x<=9*(1+2/n)*median(x)+theta)
mean(x[clean])-min(x[clean])
σ≈2.05
theta<-median(y)-Qn(y,constant=3.476)*log(2)
clean<-which(y>=theta & y<=9*(1+2/n)*median(y)+theta)
mean(y[clean])-min(y[clean])
σ≈2.2 (বহিরাগতদের ছাড়াই আমরা যে মূল্য অর্জন করতে পারি তার খুব কাছে)।
তৃতীয় উদাহরণে:
theta<-median(z)-Qn(z,constant=3.476)*log(2)
clean<-which(z>=theta & z<=9*(1+2/n)*median(z)+theta)
mean(z[clean])-min(z[clean])
σ≈2.2 (বহিরাগতদের ছাড়াই আমরা যে মূল্য অর্জন করতে পারি তার খুব কাছে)।
{i:i∉H}
এখন, সাধারণ ক্ষেত্রে যেখানে আপনার প্রতি পর্যবেক্ষণের পরিমাণ বেশিরভাগই প্রতিসাম্য বন্টন করবে না তা জানার পক্ষে আপনার পক্ষে ভাল প্রার্থীর বিতরণ নেই, আপনি অ্যাডজাস্টেড বক্সপ্লট [4] ব্যবহার করতে পারেন। এটি বক্সপ্লোটের একটি সাধারণীকরণ যা আপনার ডেটাগুলির সঙ্কোচনের পরিমাপের (নন প্যারাম্যাট্রিক এবং আউটলেট রোবস্ট) বিবেচনা করে (যাতে ডাটাগুলির সর্বাধিক প্রতিসাম্য থাকে যখন স্বাভাবিক বক্সপ্লটকে ডাউন করে যায়)। উদাহরণের জন্য আপনি এই উত্তরটিও পরীক্ষা করতে পারেন ।
- [0] জনসন এনএল, কোটজ এস, বালাকৃষ্ণন এন। (1994)। অবিচ্ছিন্ন অবিচ্ছিন্ন বিতরণ, খণ্ড 1, 2 য় সংস্করণ।
- [1] রুশিউ পিজে এবং ক্রাউক্স সি (1993)। মিডিয়ান পরম বিচ্যুতির বিকল্প। আমেরিকান স্ট্যাটিস্টিকাল অ্যাসোসিয়েশন জার্নাল, খণ্ড। 88, নং 424, পৃষ্ঠা 1273--1283।
- [২] জে কে প্যাটেল, সিএইচ কাপাডিয়া, এবং ডিবি ওউন, ডেকার (1976)। পরিসংখ্যান বিতরণের হ্যান্ডবুক।
- [3] হাম্পেল (1974)। শক্তিশালী অনুমানের মধ্যে প্রভাব বক্ররেখা এবং এর ভূমিকা। আমেরিকান স্ট্যাটিস্টিকাল অ্যাসোসিয়েশন জার্নাল ভলিউম। 69, নং 346 (জুন।, 1974), পৃষ্ঠা 383-393।
- [৪] ভান্ডারভিয়েরেন, ই।, হুবার্ট, এম। (2004) "স্কিউ বিতরণের জন্য একটি অ্যাডজাস্টেড বক্সপ্লট"। গণনা পরিসংখ্যান এবং ডেটা বিশ্লেষণ খণ্ড 52, ইস্যু 12, 15 আগস্ট 2008, পৃষ্ঠা 5186–5201।
1.5*IQR
আউটলারের সংজ্ঞা সর্বজনস্বীকৃত হয় না। আপনার সমস্যাটি সমাধান করার চেষ্টা করুন এবং আপনি যে সমস্যার সমাধান করতে চাইছেন তা প্রসারিত করুন।