আমরা কি বিদেশীদের প্রকাশ করার জন্য এক ছাড়ের গড় এবং মানক বিচ্যুতি ব্যবহার করতে পারি?


17

মনে করুন আমি সাধারণত ডেটা বিতরণ করেছি। ডেটার প্রতিটি উপাদানের জন্য আমি এটি দেখতে চাই না যে এটি কতগুলি এসডি থেকে দূরে রয়েছে। ডেটাতে একটি আউটলেটর থাকতে পারে (সম্ভবত কেবলমাত্র একটি, তবে দুটি বা তিনটিও হতে পারে) বা নাও হতে পারে তবে এই আউটলেটটি মূলত আমি যা খুঁজছি তা। আমি বর্তমানে যে উপাদানটি দেখছি তা গড় এবং এসডি এর গণনা থেকে সাময়িকভাবে বাদ দেওয়ার অর্থ কী? আমার চিন্তাভাবনাটি হ'ল এটি যদি কাছাকাছি হয় তবে এর কোনও প্রভাব নেই। যদি এটি আউটলেটর হয় তবে এটি গড় এবং এসডি গণনার পক্ষে পক্ষপাতিত্ব করতে পারে এবং এটি সনাক্ত হওয়ার সম্ভাবনা কমিয়ে দেয়। আমি কোনও পরিসংখ্যানবিদ নই, তাই কোনও সাহায্যের প্রশংসা!


7
এটি নিখুঁত ধারণা তৈরি করে এবং বহু বহিরাগত সনাক্তকরণ কৌশলগুলির ভিত্তি। তবে আপনার নিজস্ব পদ্ধতি উদ্ভাবনের পরিবর্তে, যা কাজ করতে পারে বা নাও করতে পারে (এবং পরবর্তীটি এমনকি সম্ভবত পরিসংখ্যানবিদদের দ্বারা নতুন উদ্ভাবিত পদ্ধতিগুলিও রয়েছে যার কারণে তাদের যত্ন সহকারে অধ্যয়ন প্রয়োজন), আপনি কেন তাত্ত্বিকভাবে ব্যবহার করেন না? পরীক্ষামূলকভাবে পরীক্ষিত হয়েছে?
হোয়বার

যে ইশারা জন্য ধন্যবাদ। আমি সেই কৌশলগুলি সন্ধান করব এবং দেখব যে তারা আমার ডেটাতে ভাল পারফর্ম করে কিনা!
অলিভার

1
: আর এ রিগ্রেশন বিলোপে ডায়গনিস্টিক এই পৃষ্ঠার পরীক্ষা করে দেখুন stat.ethz.ch/R-manual/R-patched/library/stats/html/...
বেন Ogorek

.... এবং কেন একক আউটলেটরের চেয়ে বেশি খুঁজে পাওয়ার জন্য তাদের উপর নির্ভর করা যায় না তার উদাহরণের জন্য এই উত্তর।
ব্যবহারকারী 60

বহিরাগতদের পতাকাঙ্কিত করার ধারণা সম্পর্কে উপরে দুর্দান্ত ধারণা। কিছুক্ষণ আগে, আমি অসঙ্গতিগুলি পতাকাঙ্কিত করতে ক্ষতি-পাস ফিল্টারগুলির ধারণার উপরে একটি নিবন্ধ লিখেছিলাম। আশা করি এটি উপস্থাপিত ধারণাটি প্রসারিত করতে সহায়তা করবে। নিবন্ধ লিঙ্ক: datascience.com/blog/python-anomaly-detection
Pramit

উত্তর:


25

এটা তোলে পাল্টা স্বজ্ঞাত মনে হতে পারে, কিন্তু পদ্ধতির আপনি বর্ণনা নেই ব্যবহার জানার জন্য (আপনার বাক্যে কথন নিতে, আমি বরং লিখতে হবে "ফলাফল দেয়ার উদ্দেশ্যে করা থেকে খুব ভিন্ন হতে পারে") এবং এক এটি কখনোই উচিত: ঝুঁকি এটি কাজ করছে না ফলাফলমূলক এবং তদ্ব্যতীত, কোনও সহজ ব্যয় ছাড়াই একটি সহজ, অনেক বেশি নিরাপদ এবং আরও ভাল প্রতিষ্ঠিত বিকল্প বিদ্যমান।

প্রথমত, এটি সত্য যে যদি কোনও একক আউটলেটর থাকে তবে অবশেষে আপনি এটি প্রস্তাবিত পদ্ধতিটি ব্যবহার করে তা খুঁজে পাবেন। তবে, সাধারণভাবে (যখন ডেটাতে একক আউটলেটরের বেশি থাকতে পারে), আপনি যে অ্যালগরিদমটি বলেছিলেন তা সম্পূর্ণরূপে ভেঙে যায়, এই অর্থে যে আপনি আউটলেটর হিসাবে কোনও ভাল ডেটা পয়েন্টকে প্রত্যাখ্যান করতে বা আউটলিয়ারদেরকে ভাল ডেটা পয়েন্ট হিসাবে রাখবেন সম্ভাব্য বিপর্যয়মূলক পরিণতি সহ।

নীচে, আমি একটি সাধারণ সংখ্যার উদাহরণ দিচ্ছি যেখানে আপনি প্রস্তাবিত নিয়মটি ভেঙে যায় এবং তারপরে আমি অনেক বেশি নিরাপদ এবং আরও প্রতিষ্ঠিত বিকল্পের প্রস্তাব দিই, তবে এর আগে আমি একটি ব্যাখ্যা করব) আপনার প্রস্তাবিত পদ্ধতিতে কী ভুল আছে এবং খ) সাধারণত পছন্দসই কী এটি বিকল্প।

সংক্ষেপে, আপনি আউটলিয়ারদের বিশ্বস্তভাবে সনাক্ত করতে আপনার ডেটা আউট এর গড় এবং মানের প্রমিত বিচ্যুতি থেকে পর্যবেক্ষণের দূরত্ব ব্যবহার করতে পারবেন না কারণ আপনি যে অনুমানগুলি ব্যবহার করেন (একটিটি গড় এবং স্ট্যান্ডার্ড বিচ্যুতিটি ছেড়ে যান) এখনও বাকিটির দিকে টানতে দায়বদ্ধ outliers: এটিকে মাস্কিং এফেক্ট বলা হয়।

সংক্ষেপে, আউটলিয়ারদের বিশ্বস্তভাবে সনাক্ত করার একটি সহজ উপায় হ'ল আপনার প্রস্তাবিত সাধারণ ধারণাটি (অবস্থান এবং স্কেল অনুমানের দূরত্ব) ব্যবহার করা তবে আপনি যে অনুমানক ব্যবহার করেছেন (তার বাইরে একটি গড়, এসডি রেখে দিন) জোরালো দ্বারা প্রতিস্থাপন - অর্থাত্, অনুমানগুলি বহিরাগতদের দ্বারা ডুবে যাওয়ার ক্ষেত্রে খুব কম সংবেদনশীল হওয়ার জন্য ডিজাইন করা।

এই উদাহরণটি বিবেচনা করুন, যেখানে আমি সাধারণ 0,1 থেকে আঁকা 47 জেনুইন পর্যবেক্ষণগুলিতে 3 আউটলিয়ার যুক্ত করি:

n    <- 50
set.seed(123)  # for reproducibility
x    <- round(rnorm(n,0,1), 1)
x[1] <- x[1]+1000
x[2] <- x[2]+10
x[3] <- x[3]+10

নীচের কোডটি বাহ্যিকতার সূচককে একতাকে ছাড়ার গড় এবং মানক বিচ্যুতির উপর ভিত্তি করে গণনা করে (যেমন আপনার প্রস্তাবের পদ্ধতির)।

out_1 <- rep(NA,n)
for(i in 1:n){  out_1[i] <- abs( x[i]-mean(x[-i]) )/sd(x[-i])  }

এবং এই কোডটি নীচে আপনি যে প্লটটি দেখছেন তা তৈরি করে।

plot(x, out_1, ylim=c(0,1), xlim=c(-3,20))
points(x[1:3], out_1[1:3], col="red", pch=16)

চিত্র 1 আপনার পর্যবেক্ষণের মানের ফাংশন হিসাবে আপনার বাহ্যিকতা সূচকের মান চিত্রিত করে (বহিরাগতদের খুব দূরে এই প্লটের সীমার বাইরে কিন্তু অন্য দুটি লাল বিন্দু হিসাবে দেখানো হয়েছে)। যেহেতু আপনি দেখতে পারেন, সবচেয়ে চরম, একটি ব্যতিক্রম হল একটি outlyingness সূচক নির্মাণ আপনার প্রস্তাবিত হিসাবে outliers প্রকাশ করতে ব্যর্থ হবে: প্রকৃতপক্ষে দ্বিতীয় ও তৃতীয় (নাতিশীতোষ্ণ) outliers এখন (আপনার outlyingness সূচক দিকে) একটি মান আছে চেয়ে ছোট সবসত্যিকারের পর্যবেক্ষণ! ... আপনার পরামর্শ অনুসারে, এই দু'জন চূড়ান্ত বহিরাগতকে খাঁটি পর্যবেক্ষণের সংশ্লেষে রাখবে, আপনাকে 49 টি পর্যবেক্ষণগুলি ব্যবহার করার জন্য নেতৃত্ব দেবে যেন তারা একই সমজাতীয় প্রক্রিয়া থেকে আসছে, আপনাকে একটি চূড়ান্ত উপহার দেয় 0.45 এবং 2.32 এর 49 টি 49 পয়েন্টের উপর ভিত্তি করে গড় এবং এসডি অনুমান করুন, আপনার নমুনার উভয় অংশের খুব খারাপ বর্ণনা !

image2

এক্সআমিএক্স

হে(এক্সআমি,এক্স)=|এক্সআমি-মেড(এক্স)|পাগল(এক্স)

মেড(এক্স)এক্সপাগল(এক্স)

আর-তে, এই দ্বিতীয় বহিরাগত সূচকটি এই হিসাবে গণনা করা যেতে পারে:

out_2 <- abs( x-median(x) )/mad(x)

এবং প্লট করা (আগের মত) ব্যবহার করে:

plot(x, out_2, ylim=c(0,15), xlim=c(-3,20))
points(x[1:3], out_2[1:3], col="red", pch=16)

image2

চিত্র 2 একই ডেটা সেটের জন্য এই বিকল্প বহিরাগততা সূচকের মানকে প্লট করে। আপনি দেখতে পাচ্ছেন, এখন তিনটি আউটলিয়ারই স্পষ্টভাবে প্রকাশ পেয়েছে। তদতিরিক্ত, এই আউটলেট সনাক্তকরণের নিয়মের কিছু প্রতিষ্ঠিত পরিসংখ্যানগত বৈশিষ্ট্য রয়েছে। এটি অন্যান্য বিষয়গুলির মধ্যেও ব্যবহারযোগ্য কাট-অফ নিয়মের দিকে নিয়ে যায়। উদাহরণস্বরূপ, যদি ডেটাটির আসল অংশটি সীমাবদ্ধ দ্বিতীয় মুহুর্তের সাথে প্রতিসাম্য বিতরণ থেকে আঁকা বলে ধরে নেওয়া যায়, আপনি সমস্ত ডেটা পয়েন্টগুলি প্রত্যাখ্যান করতে পারেন যার জন্য

|এক্সআমি-মেড(এক্স)|পাগল(এক্স)>3.5

outliers হিসাবে উপরের উদাহরণে, এই নিয়মের প্রয়োগ আপনাকে সঠিকভাবে পতাকা পর্যবেক্ষণ 1,2 এবং 3 এ নিয়ে যাবে, এগুলি প্রত্যাখ্যান করে, অবশিষ্ট পর্যবেক্ষণগুলির গড় এবং এসডি 0.021 এবং 0.93 গ্রহণযোগ্যভাবে হয়, নমুনার আসল অংশটির আরও ভাল বিবরণ !


2
প্রথম বাক্যটি +1 করা সত্ত্বেও, যা আপনি তত্ক্ষণাত্ বিরোধিতা করেন (ওপির প্রস্তাবটি যখন কোনও এক বহিরাগতকে ধরে নেওয়া হয় তখন তা বোঝা যায়; যখন এই অনুমান লঙ্ঘন করা হয় তখন আপনার আপত্তি এই পদ্ধতির সমস্যা নিয়ে উদ্বেগ প্রকাশ করে)।
হোবার

1
ধন্যবাদ. এরই মধ্যে আমি আমার আগের মন্তব্যটি মুছলাম, আপনার সম্পাদনার পরে এটি অপ্রচলিত হয়ে উঠবে ant
হোবার

3
যে ঘটনাটি বেশ কয়েকজন বহিরাগত তাদের একক-আউটিলার-সনাক্তকরণ অন্ধ করে তোলে প্রায়শই তাকে মাস্কিং বলা হয় । এটি সমস্যা সম্পর্কিত আরও তথ্য সনাক্ত করতে লোককে সহায়তা করতে পারে।
গ্লেন_বি -রিনস্টেট মনিকা

1
@ ইউজার 603 চমৎকার কাজটি একটি চিত্রকর দৃশ্য তৈরি করছে তবে আমি মনে করি আপনি বাথ স্নানের জল দিয়ে বাচ্চাকে বের করে দিচ্ছেন। রিগ্রেশন মুছে ফেলার ডায়াগনস্টিকগুলি নিখুঁত নয় তবে এগুলি ব্যাপকভাবে প্রযোজ্য এবং সময়ের পরীক্ষায় দাঁড়িয়েছে। মিডিয়ান গ্রহণ করা ঠিক আছে তবে আমি অবাক হয়েছি আপনি কীভাবে আরও জটিল সম্ভাবনা ভিত্তিক মডেলগুলিতে আপনার পদ্ধতির প্রসারিত করবেন।
বেন ওগোরেক

2
+6, এটি একটি দুর্দান্ত উত্তর - কোড, পরিসংখ্যান এবং সূত্র দিয়ে পরিষ্কারভাবে এবং পুঙ্খানুপুঙ্খভাবে ব্যাখ্যা করা হয়েছে। আমি কোড ফর্ম্যাটিংটি সামান্য পড়লাম যাতে এটি পড়া সহজ হয়। আপনি যদি এটি পছন্দ না করেন তবে ডাব্লু / আমার ক্ষমা প্রার্থনা করুন roll
গুং - মনিকা পুনরায়
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.