এটা তোলে পাল্টা স্বজ্ঞাত মনে হতে পারে, কিন্তু পদ্ধতির আপনি বর্ণনা নেই ব্যবহার জানার জন্য (আপনার বাক্যে কথন নিতে, আমি বরং লিখতে হবে "ফলাফল দেয়ার উদ্দেশ্যে করা থেকে খুব ভিন্ন হতে পারে") এবং এক এটি কখনোই উচিত: ঝুঁকি এটি কাজ করছে না ফলাফলমূলক এবং তদ্ব্যতীত, কোনও সহজ ব্যয় ছাড়াই একটি সহজ, অনেক বেশি নিরাপদ এবং আরও ভাল প্রতিষ্ঠিত বিকল্প বিদ্যমান।
প্রথমত, এটি সত্য যে যদি কোনও একক আউটলেটর থাকে তবে অবশেষে আপনি এটি প্রস্তাবিত পদ্ধতিটি ব্যবহার করে তা খুঁজে পাবেন। তবে, সাধারণভাবে (যখন ডেটাতে একক আউটলেটরের বেশি থাকতে পারে), আপনি যে অ্যালগরিদমটি বলেছিলেন তা সম্পূর্ণরূপে ভেঙে যায়, এই অর্থে যে আপনি আউটলেটর হিসাবে কোনও ভাল ডেটা পয়েন্টকে প্রত্যাখ্যান করতে বা আউটলিয়ারদেরকে ভাল ডেটা পয়েন্ট হিসাবে রাখবেন সম্ভাব্য বিপর্যয়মূলক পরিণতি সহ।
নীচে, আমি একটি সাধারণ সংখ্যার উদাহরণ দিচ্ছি যেখানে আপনি প্রস্তাবিত নিয়মটি ভেঙে যায় এবং তারপরে আমি অনেক বেশি নিরাপদ এবং আরও প্রতিষ্ঠিত বিকল্পের প্রস্তাব দিই, তবে এর আগে আমি একটি ব্যাখ্যা করব) আপনার প্রস্তাবিত পদ্ধতিতে কী ভুল আছে এবং খ) সাধারণত পছন্দসই কী এটি বিকল্প।
সংক্ষেপে, আপনি আউটলিয়ারদের বিশ্বস্তভাবে সনাক্ত করতে আপনার ডেটা আউট এর গড় এবং মানের প্রমিত বিচ্যুতি থেকে পর্যবেক্ষণের দূরত্ব ব্যবহার করতে পারবেন না কারণ আপনি যে অনুমানগুলি ব্যবহার করেন (একটিটি গড় এবং স্ট্যান্ডার্ড বিচ্যুতিটি ছেড়ে যান) এখনও বাকিটির দিকে টানতে দায়বদ্ধ outliers: এটিকে মাস্কিং এফেক্ট বলা হয়।
সংক্ষেপে, আউটলিয়ারদের বিশ্বস্তভাবে সনাক্ত করার একটি সহজ উপায় হ'ল আপনার প্রস্তাবিত সাধারণ ধারণাটি (অবস্থান এবং স্কেল অনুমানের দূরত্ব) ব্যবহার করা তবে আপনি যে অনুমানক ব্যবহার করেছেন (তার বাইরে একটি গড়, এসডি রেখে দিন) জোরালো দ্বারা প্রতিস্থাপন - অর্থাত্, অনুমানগুলি বহিরাগতদের দ্বারা ডুবে যাওয়ার ক্ষেত্রে খুব কম সংবেদনশীল হওয়ার জন্য ডিজাইন করা।
এই উদাহরণটি বিবেচনা করুন, যেখানে আমি সাধারণ 0,1 থেকে আঁকা 47 জেনুইন পর্যবেক্ষণগুলিতে 3 আউটলিয়ার যুক্ত করি:
n <- 50
set.seed(123) # for reproducibility
x <- round(rnorm(n,0,1), 1)
x[1] <- x[1]+1000
x[2] <- x[2]+10
x[3] <- x[3]+10
নীচের কোডটি বাহ্যিকতার সূচককে একতাকে ছাড়ার গড় এবং মানক বিচ্যুতির উপর ভিত্তি করে গণনা করে (যেমন আপনার প্রস্তাবের পদ্ধতির)।
out_1 <- rep(NA,n)
for(i in 1:n){ out_1[i] <- abs( x[i]-mean(x[-i]) )/sd(x[-i]) }
এবং এই কোডটি নীচে আপনি যে প্লটটি দেখছেন তা তৈরি করে।
plot(x, out_1, ylim=c(0,1), xlim=c(-3,20))
points(x[1:3], out_1[1:3], col="red", pch=16)
চিত্র 1 আপনার পর্যবেক্ষণের মানের ফাংশন হিসাবে আপনার বাহ্যিকতা সূচকের মান চিত্রিত করে (বহিরাগতদের খুব দূরে এই প্লটের সীমার বাইরে কিন্তু অন্য দুটি লাল বিন্দু হিসাবে দেখানো হয়েছে)। যেহেতু আপনি দেখতে পারেন, সবচেয়ে চরম, একটি ব্যতিক্রম হল একটি outlyingness সূচক নির্মাণ আপনার প্রস্তাবিত হিসাবে outliers প্রকাশ করতে ব্যর্থ হবে: প্রকৃতপক্ষে দ্বিতীয় ও তৃতীয় (নাতিশীতোষ্ণ) outliers এখন (আপনার outlyingness সূচক দিকে) একটি মান আছে চেয়ে ছোট সবসত্যিকারের পর্যবেক্ষণ! ... আপনার পরামর্শ অনুসারে, এই দু'জন চূড়ান্ত বহিরাগতকে খাঁটি পর্যবেক্ষণের সংশ্লেষে রাখবে, আপনাকে 49 টি পর্যবেক্ষণগুলি ব্যবহার করার জন্য নেতৃত্ব দেবে যেন তারা একই সমজাতীয় প্রক্রিয়া থেকে আসছে, আপনাকে একটি চূড়ান্ত উপহার দেয় 0.45 এবং 2.32 এর 49 টি 49 পয়েন্টের উপর ভিত্তি করে গড় এবং এসডি অনুমান করুন, আপনার নমুনার উভয় অংশের খুব খারাপ বর্ণনা !
এক্সআমিএক্স
ও ( এক্সআমি, এক্স) = | এক্সআমি- মেড ( এক্স) |পাগল (এক্স)
মেড (এক্স)এক্সপাগল (এক্স)
আর-তে, এই দ্বিতীয় বহিরাগত সূচকটি এই হিসাবে গণনা করা যেতে পারে:
out_2 <- abs( x-median(x) )/mad(x)
এবং প্লট করা (আগের মত) ব্যবহার করে:
plot(x, out_2, ylim=c(0,15), xlim=c(-3,20))
points(x[1:3], out_2[1:3], col="red", pch=16)
চিত্র 2 একই ডেটা সেটের জন্য এই বিকল্প বহিরাগততা সূচকের মানকে প্লট করে। আপনি দেখতে পাচ্ছেন, এখন তিনটি আউটলিয়ারই স্পষ্টভাবে প্রকাশ পেয়েছে। তদতিরিক্ত, এই আউটলেট সনাক্তকরণের নিয়মের কিছু প্রতিষ্ঠিত পরিসংখ্যানগত বৈশিষ্ট্য রয়েছে। এটি অন্যান্য বিষয়গুলির মধ্যেও ব্যবহারযোগ্য কাট-অফ নিয়মের দিকে নিয়ে যায়। উদাহরণস্বরূপ, যদি ডেটাটির আসল অংশটি সীমাবদ্ধ দ্বিতীয় মুহুর্তের সাথে প্রতিসাম্য বিতরণ থেকে আঁকা বলে ধরে নেওয়া যায়, আপনি সমস্ত ডেটা পয়েন্টগুলি প্রত্যাখ্যান করতে পারেন যার জন্য
| এক্সআমি- মেড ( এক্স) |পাগল (এক্স)> 3.5
outliers হিসাবে উপরের উদাহরণে, এই নিয়মের প্রয়োগ আপনাকে সঠিকভাবে পতাকা পর্যবেক্ষণ 1,2 এবং 3 এ নিয়ে যাবে, এগুলি প্রত্যাখ্যান করে, অবশিষ্ট পর্যবেক্ষণগুলির গড় এবং এসডি 0.021 এবং 0.93 গ্রহণযোগ্যভাবে হয়, নমুনার আসল অংশটির আরও ভাল বিবরণ !