স্কেল বিতরণগুলিতে আউটিলার সনাক্তকরণ


24

আউটলারের একটি শাস্ত্রীয় সংজ্ঞায়নের আওতায় ডেটা পয়েন্ট হিসাবে উপরের বা নিম্ন কোয়ার্টাইল থেকে 1.5 * আইকিউআরকে ছাড়িয়ে যায়, সেখানে স্কিচবিহীন বিতরণের অনুমান রয়েছে। স্কিউড ডিস্ট্রিবিউশনের জন্য (এক্সফেনশনাল, পোইসন, জ্যামিতিক, ইত্যাদি) মূল ফাংশনের রূপান্তর বিশ্লেষণ করে কোনও আউটলেটর সনাক্ত করার সেরা উপায়?

উদাহরণস্বরূপ, কোনও তাত্পর্যপূর্ণ বিতরণ দ্বারা আলগাভাবে পরিচালিত বিতরণগুলি একটি লগ ফাংশন দিয়ে রূপান্তরিত হতে পারে - কোন আইকিআর সংজ্ঞার ভিত্তিতে বিদেশীদের অনুসন্ধান করা কোন পর্যায়ে গ্রহণযোগ্য?


4
এই সাইটে বহিরাগতদের মূল্যায়ন করার জন্য অনেক প্রশ্ন রয়েছে। যুক্তিযুক্ত উত্তর পেতে আপনার এখানে যে একটি জিনিস যুক্ত করতে হবে তা হ'ল আপনি যা করতে চেষ্টা করছেন তা খুঁজে বের করতে। তবে শুরুতে, 1.5*IQRআউটলারের সংজ্ঞা সর্বজনস্বীকৃত হয় না। আপনার সমস্যাটি সমাধান করার চেষ্টা করুন এবং আপনি যে সমস্যার সমাধান করতে চাইছেন তা প্রসারিত করুন।
জন

1.5 আইকিউআর-এর বেশি একটি মান একটি আউটলেটর যে বিবৃতিটি কেবল আজেবাজে কথা। 1.5 আইকিউআরের বেশি সংখ্যক ডেটা সম্পূর্ণরূপে সীমাহীন সংখ্যক বিতরণের সাথে সামঞ্জস্যপূর্ণ হবে এবং নমুনার আকারটি বড় হওয়ার সাথে সাথে একজনের প্রায় পুরোপুরি আস্থা থাকতে পারে যে এই জাতীয় ডেটা বিদেশী নয়।
নেকখরা

উত্তর:


18

আউটলারের একটি শাস্ত্রীয় সংজ্ঞা অনুসারে ডেটা পয়েন্ট হিসাবে উপরের বা নীচের চৌকোটি থেকে 1.5 * আইকিউআর ছাড়িয়ে যায়,

বক্সপ্লটে হুইস্কারগুলির শেষের বাইরে পয়েন্টগুলি চিহ্নিত করার জন্য এটিই নিয়ম। এই ভিত্তিতে তাদেরকে আউটলিয়ার বলাতে তুকি নিজেই কোনও সন্দেহ পোষণ করবেন না (তিনি অবশ্যই এই সীমাগুলির বাইরে পয়েন্টকে বিদেশী হিসাবে বিবেচনা করতেন না)। এগুলি বরং এমন পয়েন্টগুলি হবে - যদি আপনার ডেটা কোনও বিতরণ থেকে সাধারণ বিতরণের মতো কিছুটা প্রত্যাশা করা হত - তবে আরও তদন্তের মুখোমুখি হতে পারে (যেমন আপনি দুটি অঙ্কের স্থানান্তর করেন নি, যেমন পরীক্ষা করা) - বেশিরভাগ ক্ষেত্রে সম্ভাব্য outliers হতে পারে । নিক কক্স যেমন এই উত্তরের মন্তব্যে উল্লেখ করেছেন , এ জাতীয় অনেকগুলি পয়েন্টের লেজটিকে আরও সূচক হিসাবে গ্রহণ করা হবে যে পয়েন্টগুলি বিদেশী হিসাবে বিবেচনা করার প্রয়োজনের ইঙ্গিতের চেয়ে পুনরায় প্রকাশটি উপযুক্ত হতে পারে।

অ-স্কিউড বিতরণের একটি অনুমান রয়েছে।

আমি ধরে নিয়েছি 'নন-স্কিউড' মানে আপনার প্রতিসাম্য। তারপরে অনুমানটি কেবল তার চেয়ে বেশি। ভারী লেজযুক্ত তবে প্রতিসম বিতরণে সেই নিয়মের সীমানার বাইরে অনেকগুলি পয়েন্ট থাকতে পারে ।

স্কিউড ডিস্ট্রিবিউশনের জন্য (এক্সফেনশনাল, পোইসন, জ্যামিতিক, ইত্যাদি) মূল ফাংশনের রূপান্তর বিশ্লেষণ করে কোনও আউটলেটর সনাক্ত করার সেরা উপায়?

এটি আপনার উদ্দেশ্যগুলির জন্য একটি আউটলেটরকে কী গঠন করে তার উপর নির্ভর করে। প্রতিটি কাজের জন্য উপযুক্ত কোনও একক সংজ্ঞা নেই - প্রকৃতপক্ষে, সাধারণত আপনি অন্য কাজগুলি করাকে আরও ভাল বলে মনে করেন (যা বলে) বিদেশী বাছাই করা এবং সেগুলি বাদ দেওয়া।

ঘৃণ্য বা জ্যামিতিকের জন্য, আপনি বক্সপ্লটের জন্য এর সাথে একই রকম গণনা করতে পারেন তবে এটি কেবল ডান লেজে একই ধরণের ভগ্নাংশ সনাক্ত করতে পারে (আপনার নিকটবর্তী বা জ্যামিতিকের মধ্যে স্বল্প-পয়েন্টগুলি চিহ্নিত হবে না) .. বা আপনি অন্য কিছু করতে পারেন।

বড় নমুনায় বক্সপ্লট প্রতিটি প্রান্তে প্রায় 0.35% পয়েন্ট বা মোটে প্রায় 0.7% চিহ্নিত করে। কোনও ক্ষতিকারক হিসাবে আপনি মিডিয়ানটির কয়েকটি একাধিক চিহ্নিত করতে পারেন। যদি আপনি প্রকৃত ক্ষতিকারকের জন্য মোট পয়েন্টের প্রায় 0.7% ট্যাগ করতে চান, তবে এটি মধ্যস্থদের প্রায় 7.1 গুণ ছাড়িয়ে পয়েন্টগুলি চিহ্নিত করার পরামর্শ দেবে।

=.১ বারের উপরে এন = 1000 এর জন্য পয়েন্টগুলি চিহ্নিত করা সাধারণত মানগুলির 0.4% থেকে 1.1% এর মধ্যে হিট হয়:

ae <- rexp(1000)
table( ae > 7.1*median(ae) )

FALSE  TRUE 
  993     7 

উদাহরণস্বরূপ, কোনও তাত্পর্যপূর্ণ বিতরণ দ্বারা আলগাভাবে পরিচালিত বিতরণগুলি একটি লগ ফাংশন দিয়ে রূপান্তরিত হতে পারে - কোন আইকিআর সংজ্ঞার ভিত্তিতে বিদেশীদের অনুসন্ধান করা কোন পর্যায়ে গ্রহণযোগ্য?

এটি পুরোপুরি নির্ভর করে আপনি "গ্রহণযোগ্য" বলতে কী বোঝায়। দ্রষ্টব্য, তবে -

i) ফলাফল বিতরণ আসলে প্রতিসম নয়, তবে স্পষ্টতই বাম-স্কু।

এখানে চিত্র বর্ণনা লিখুন

ফলস্বরূপ, আপনি সাধারণত বাম প্রান্তে কেবলমাত্র পয়েন্টগুলি চিহ্নিত করতে পারেন (যেমন শূন্যের কাছাকাছি, যেখানে আপনি সূচকীয় মানগুলি যেভাবেই হওয়া প্রত্যাশা করেন) ডানদিকে (যেখানে "বিদেশী" হতে পারে) না করে যদি না তারা সত্যই থাকে চরম।

ii) এই জাতীয় নিয়মের উপযুক্ততা আপনার কাজের উপর নির্ভর করে।

যদি আপনি সাধারণভাবে আপনার অনুভূতিকে প্রভাবিত করে এমন অদ্ভুত অদ্ভুত মান সম্পর্কে উদ্বিগ্ন হন তবে আপনি সম্ভবত বিদেশিদের আনুষ্ঠানিকভাবে চিহ্নিত করার চেয়ে দৃ procedures় পদ্ধতি ব্যবহার করা ভাল।

আপনি কি সত্যিই রুপান্তরিত সূচকীয় বা পইসন ডেটার জন্য একটি স্বাভাবিক ভিত্তিক নিয়ম ব্যবহার করতে চান তবে আমি চাই অন্তত করার পরামর্শ দিই বর্গমূল প্রতি প্রয়োগ করে (ক পইসন জন্য যতদিন গড় খুবই ছোট নয়, এটা হওয়া উচিত মোটামুটিভাবে নরমালিশ) এবং ঘনক্ষেত্রের জন্য ঘনক পর্যন্ত বা চতুর্থ মূলটি (এবং সম্ভবত, এক্সটেনশন দ্বারা, জ্যামিতিক)।

বা সম্ভবত ,আনস্কোম রূপান্তর হিসাবেX+38

এখানে চিত্র বর্ণনা লিখুন

ক্ষতিকারক হিসাবে, বড় নমুনায় কিউব-রুট পদ্ধতির উপরের লেজের মধ্যে পয়েন্টগুলি চিহ্নিত করার প্রবণতা থাকবে (প্রায় একই হারে এটি একটি স্বাভাবিকের জন্য উপরের লেজে তাদের চিহ্নিত করে) এবং চতুর্থ-মূল পদ্ধতির উভয় লেজগুলিতে চিহ্ন চিহ্নিত করে (নীচের লেজে কিছুটা বেশি, মোটের প্রায় ৪০% হারে এটি কোনও সাধারণের জন্য করে)। সম্ভাবনাগুলির মধ্যে, ঘনক্ষেত্রটি আমার কাছে অন্য দুটির চেয়ে বেশি বোঝা যায়, তবে আমি এটিকে কিছু কঠোর এবং দ্রুত নিয়ম হিসাবে ব্যবহার করার পরামর্শ দিই না।


1
"একটি ভারী-লেজযুক্ত তবে প্রতিসম বিতরণে সেই নিয়মের সীমানার বাইরে অনেকগুলি পয়েন্ট থাকতে পারে।" আইকিউআর-এর মধ্যে সবসময় পয়েন্টগুলির ঠিক 50% থাকে, তাই না?
জুলিয়েনডে

2
@muraveill প্রকৃতপক্ষে - কিন্তু সেখানে সবসময় পয়েন্ট বাইরের 0.7% এর যা boxplot নিয়ম যে আলোচনা অধীনে। (Q11.5×IQR,Q3+1.5×IQR)
গ্লেন_বি

@ গ্লেেন_বি আপনার উত্তরে সূচকীয়টির জন্য উপরের প্রত্যাখানের প্রান্তটি ধরে নিয়েছে যে শিফট প্যারামিটার (বা থেইটা) জানা আছে। আমি মনে করি এটি উল্লেখ করা উচিত।
ব্যবহারকারী 60

1
@ user603 শব্দ " সূচকীয় বণ্টনের " (দেখতে এখানে ) কোন পরিবর্তন বিশেষণ ছাড়া (যেমন "স্থানান্তরিত" বা "দুই প্যারামিটার") সবচেয়ে সাধারনত এক প্যারামিটার সংস্করণ বোঝায়। কিছু লোক স্থানান্তরিত সংস্করণটিকে "সূচকীয় বিতরণ" বলে ডাকে তবে এটি তুলনামূলকভাবে বিরল; স্থানান্তরিত লগমনরমাল ডিস্ট্রিবিউশনকে "লগনরমাল ডিস্ট্রিবিউশন" বলার চেয়ে কিছুটা বেশি সাধারণ।
গ্লেেন_বি -রিনস্টেট মনিকা

1
@ ইউজার 603 ওহ, দুঃখিত, একটি সাধারণ ভুল যোগাযোগ রয়েছে - সে ক্ষেত্রে হ্যাঁ, আমি মনে করি না যে আমাদের মধ্যে কোনও তাত্পর্যপূর্ণ মতবিরোধ রয়েছে - যেখানে বামদিকে বড় বহিরাগতদের কোনও সম্ভাবনা আছে, আমি যে পদ্ধতির উল্লেখ করেছি তাতে কোনও লাভ হয় না । আমি কেবল কোনও সম্ভাব্য পরিস্থিতি মোকাবিলার চেষ্টা করছিলাম না (তবে আমার প্রতিরক্ষা হিসাবে, এটি ওপি যেমন একটি সম্ভাবনা হিসাবে বিবেচনা করেছিল এমনভাবে আমার দিকে ততটুকু লাগেনি - আমি সন্দেহ করি লগগুলি যদি মনে হয় তবে তা যদি মনে হয় তবে)।
গ্লেন_বি

14

আমি আপনার প্রশ্নের বিপরীত ক্রমে উত্তর দেব যাতে আপনি তাদের জিজ্ঞাসা করেছিলেন, যাতে এক্সপোশনটি নির্দিষ্ট থেকে সাধারণের দিকে এগিয়ে যায়।

প্রথমে আসুন আমরা এমন একটি পরিস্থিতি বিবেচনা করি যেখানে আপনি ধরে নিতে পারেন যে সংখ্যালঘু সম্প্রদায়ের সংখ্যালঘু ব্যতীত, আপনার ডেটার বেশিরভাগ অংশ একটি পরিচিত বিতরণ (আপনার ক্ষেত্রে ক্ষতিকারক) দ্বারা ভালভাবে বর্ণনা করা যেতে পারে।

x

pX(x)=σ1exp((xθ)σ),x>0;σ>0

xθ=0

প্যারামিটারগুলির স্বাভাবিক এমএলই অনুমানকারী হ'ল [0, পি 506]:

θ^=minixi

এবং

σ^=aveiximinixi

এখানে একটি উদাহরণ দেওয়া হল R:

n<-100
theta<-1
sigma<-2
set.seed(123) #for reproducibility
x<-rexp(n,rate=1/sigma)+theta
mean(x)-min(x)

σ2.08

xixi

m<-floor(0.2*n)
y<-x
y[1:m]<--y[1:m]
mean(y)-min(y)

σ11.12xi100xi

m<-floor(0.2*n)
z<-x
z[1:m]<-100*z[1:m]
mean(z)-min(z)

σ54 (!)।

কাঁচা এমএলএর বিকল্প হ'ল (ক) শক্তিশালী আউটলেট সনাক্তকারী বিধি ব্যবহার করে বিদেশী খুঁজে পাওয়া , (খ) এটিকে উত্সাহী ডেটা হিসাবে আলাদা করা এবং (গ) নমুনার অপ্রয়োজনীয় অংশে এমএলই গণনা করা।

এই শক্তিশালী আউটলেট সনাক্তকারী বিধিটির মধ্যে সবচেয়ে সুপরিচিত হ'ল হাম্পেল প্রস্তাবিত মেড / পাগল বিধি [3] যিনি এটিকে গসকে দায়ী করেছিলেন (আমি এই নিয়মটি এখানে চিত্রিত করেছি) )। মেড / পাগল নিয়মে, প্রত্যাখ্যানের প্রান্তিকতা আপনার অনুমানের সত্যিকারের পর্যবেক্ষণগুলি একটি সাধারণ বিতরণের মাধ্যমে খুব ভালভাবে অনুমান করা হয়েছে এমন ধারণার উপর ভিত্তি করে।

অবশ্যই, যদি আপনার অতিরিক্ত তথ্য থাকে (যেমন জেনে রাখা যে সত্যিকারের পর্যবেক্ষণগুলির বিতরণটি উদাহরণ হিসাবে যেমন পোয়েসন বিতরণ দ্বারা সন্নিহিত ) তখন আপনার ডেটা রুপান্তর করা এবং বেসলাইন বহিরাগত প্রত্যাখ্যান নিয়ম ব্যবহার করা থেকে আপনার বাধা দেওয়ার কিছুই নেই ( মেড / পাগল) তবে এটি অ্যাড-হকের সমস্ত নিয়মের পরে যা আছে তা সংরক্ষণের জন্য ডেটা রুপান্তর করতে কিছুটা বিশ্রী হিসাবে আমাকে আঘাত করে।

ডেটা সংরক্ষণ করা কিন্তু প্রত্যাখ্যানের নিয়মগুলি মানিয়ে নেওয়া আমার কাছে অনেক বেশি যৌক্তিক মনে হয়। তারপরে, আপনি উপরের প্রথম লিঙ্কে বর্ণিত 3 পদক্ষেপের পদ্ধতিটি আপনি এখনও ব্যবহার করবেন তবে প্রত্যাখ্যানের দ্বারটি বিতরণে অভিযোজিত হবে যা আপনি সন্দেহ করছেন যে ডেটাটির ভাল অংশ রয়েছে। নীচে, আমি এমন পরিস্থিতিতে প্রত্যাখ্যানের নিয়ম দিই যেখানে খাঁটি পর্যবেক্ষণগুলি কোনও তাত্পর্যপূর্ণ বিতরণ দ্বারা ভালভাবে সজ্জিত হয়। এই ক্ষেত্রে, আপনি নিম্নোক্ত নিয়মটি ব্যবহার করে ভাল প্রত্যাখ্যানের চৌম্বকটি তৈরি করতে পারেন:

θ

θ^=medixi3.476Qn(x)ln2

Qn বিচ্ছুরণের একটি শক্তিশালী অনুমান যা প্রতিসামগ্রী তথ্যের দিকে লক্ষ্য করা যায় না। এটি ব্যাপকভাবে প্রয়োগ করা হয়, উদাহরণস্বরূপ আর প্যাকেজ রোবস্টবেসে । তাত্পর্যপূর্ণ বিতরণ করা তথ্যের জন্য, Qn এর ধারাবাহিকতা গুণক দ্বারা গুণিত হয়3.476 , আরও তথ্যের জন্য [1] দেখুন।

2) জালিয়াতিযুক্ত সমস্ত পর্যবেক্ষণ [2, পি 188] এর বাইরে প্রত্যাখ্যান করুন

[θ^,9(1+2/n)medixi+θ^]

(উপরের নিয়মে 9 টি ফ্যাক্টরটি উপরের গ্লেন_ বি এর উত্তরের 7.1 হিসাবে প্রাপ্ত, তবে উচ্চতর কাট অফ ব্যবহার করে The বড় পরিমাণে নমুনা আকারের জন্য এটি মূলত 1 এর সমান)।

σ

σ^=aveiHximiniHxi

H={i:θ^xi9(1+2/n)medixi+θ^}

পূর্ববর্তী উদাহরণগুলিতে এই নিয়মটি ব্যবহার করে আপনি পাবেন:

library(robustbase)
theta<-median(x)-Qn(x,constant=3.476)*log(2)
clean<-which(x>=theta & x<=9*(1+2/n)*median(x)+theta)
mean(x[clean])-min(x[clean])

σ2.05

theta<-median(y)-Qn(y,constant=3.476)*log(2)
clean<-which(y>=theta & y<=9*(1+2/n)*median(y)+theta)
mean(y[clean])-min(y[clean])

σ2.2 (বহিরাগতদের ছাড়াই আমরা যে মূল্য অর্জন করতে পারি তার খুব কাছে)।

তৃতীয় উদাহরণে:

theta<-median(z)-Qn(z,constant=3.476)*log(2)
clean<-which(z>=theta & z<=9*(1+2/n)*median(z)+theta)
mean(z[clean])-min(z[clean])

σ2.2 (বহিরাগতদের ছাড়াই আমরা যে মূল্য অর্জন করতে পারি তার খুব কাছে)।

{i:iH}

এখন, সাধারণ ক্ষেত্রে যেখানে আপনার প্রতি পর্যবেক্ষণের পরিমাণ বেশিরভাগই প্রতিসাম্য বন্টন করবে না তা জানার পক্ষে আপনার পক্ষে ভাল প্রার্থীর বিতরণ নেই, আপনি অ্যাডজাস্টেড বক্সপ্লট [4] ব্যবহার করতে পারেন। এটি বক্সপ্লোটের একটি সাধারণীকরণ যা আপনার ডেটাগুলির সঙ্কোচনের পরিমাপের (নন প্যারাম্যাট্রিক এবং আউটলেট রোবস্ট) বিবেচনা করে (যাতে ডাটাগুলির সর্বাধিক প্রতিসাম্য থাকে যখন স্বাভাবিক বক্সপ্লটকে ডাউন করে যায়)। উদাহরণের জন্য আপনি এই উত্তরটিও পরীক্ষা করতে পারেন ।

  • [0] জনসন এনএল, কোটজ এস, বালাকৃষ্ণন এন। (1994)। অবিচ্ছিন্ন অবিচ্ছিন্ন বিতরণ, খণ্ড 1, 2 য় সংস্করণ।
  • [1] রুশিউ পিজে এবং ক্রাউক্স সি (1993)। মিডিয়ান পরম বিচ্যুতির বিকল্প। আমেরিকান স্ট্যাটিস্টিকাল অ্যাসোসিয়েশন জার্নাল, খণ্ড। 88, নং 424, পৃষ্ঠা 1273--1283।
  • [২] জে কে প্যাটেল, সিএইচ কাপাডিয়া, এবং ডিবি ওউন, ডেকার (1976)। পরিসংখ্যান বিতরণের হ্যান্ডবুক।
  • [3] হাম্পেল (1974)। শক্তিশালী অনুমানের মধ্যে প্রভাব বক্ররেখা এবং এর ভূমিকা। আমেরিকান স্ট্যাটিস্টিকাল অ্যাসোসিয়েশন জার্নাল ভলিউম। 69, নং 346 (জুন।, 1974), পৃষ্ঠা 383-393।
  • [৪] ভান্ডারভিয়েরেন, ই।, হুবার্ট, এম। (2004) "স্কিউ বিতরণের জন্য একটি অ্যাডজাস্টেড বক্সপ্লট"। গণনা পরিসংখ্যান এবং ডেটা বিশ্লেষণ খণ্ড 52, ইস্যু 12, 15 আগস্ট 2008, পৃষ্ঠা 5186–5201।

1

প্রথমত, আমি সংজ্ঞাটি শাস্ত্রীয় বা অন্যথায় প্রশ্ন করব। একটি "আউটলেটর" একটি অবাক করা বিষয়। যে কোনও নির্দিষ্ট নিয়ম (এমনকি প্রতিসম বিতরণের জন্যও) ব্যবহার করা একটি ত্রুটিযুক্ত ধারণা, বিশেষত আজকাল যখন এতগুলি বিশাল ডেটা সেট থাকে। (বলুন) এক মিলিয়ন পর্যবেক্ষণের ডেটা সেটে (এতগুলি বড় নয়, কিছু ক্ষেত্রে), বিতরণটি পুরোপুরি স্বাভাবিক হলেও, 1.5 আইকিউআর সীমাবদ্ধতার পরেও অনেকগুলি ক্ষেত্রে আপনার উদ্ধৃতি দেওয়া হবে।

দ্বিতীয়ত, আমি মূল ডেটাতে বিদেশিদের সন্ধান করার পরামর্শ দেব। এটি প্রায় সর্বদা আরও স্বজ্ঞাত হবে। উদাহরণস্বরূপ, আয়ের ডেটা সহ, লগগুলি নেওয়া বেশ সাধারণ। তবে এখানেও আমি মূল স্কেল (ডলার বা ইউরো বা যা কিছু) এর বাইরে থাকা লোকদের সন্ধান করব কারণ এই জাতীয় সংখ্যার জন্য আমাদের আরও ভাল অনুভূতি রয়েছে। (যদি আপনি লগগুলি গ্রহণ করেন তবে আমি কমপক্ষে আউটলেট সনাক্তকরণের জন্য লগ বেস 10 এর পরামর্শ দেব, কারণ এটি অন্তত কিছুটা স্বজ্ঞাত)।

তৃতীয়ত, বিদেশিদের অনুসন্ধান করার সময়, মাস্কিং থেকে সাবধান থাকুন।

অবশেষে, আমি বর্তমানে বিভিন্ন ধরণের ডেটা এবং সমস্যার জন্য আটকিনসন এবং রিয়ানির প্রস্তাবিত "ফরোয়ার্ড অনুসন্ধান" অ্যালগরিদমটি নিয়ে গবেষণা করছি। এটি দেখতে খুব আশাব্যঞ্জক।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.