স্ট্যান্ডার্ড বিচ্যুতি ব্যবহার করে আউটলিয়ারগুলি সনাক্ত করা


27

এখানে আমার প্রশ্ন অনুসরণ করে , আমি ভাবছি যে আউটলিয়ারগুলি সনাক্ত করার জন্য স্ট্যান্ডার্ড বিচ্যুতি ব্যবহারের পক্ষে বা বিপক্ষে দৃ strong় মতামত রয়েছে কিনা (উদাহরণস্বরূপ যে কোনও ডেটাপয়েন্ট যা 2 টিরও বেশি স্ট্যান্ডার্ড বিচ্যুতি আউটলেটর)।

আমি জানি এটি অধ্যয়নের প্রসঙ্গে নির্ভরশীল, উদাহরণস্বরূপ একটি ডাটা পয়েন্ট, 48 কেজি অবশ্যই বাচ্চাদের ওজনের গবেষণার ক্ষেত্রে অবশ্যই বহিরাগত হবে তবে বয়স্কদের ওজনের গবেষণায় নয়।

আউটলিয়াররা ডাটা এন্ট্রি ভুল হিসাবে বিভিন্ন কারণের ফলাফল are আমার ক্ষেত্রে, এই প্রক্রিয়াগুলি শক্তিশালী।

আমার মনে হয় আমি যে প্রশ্নটি জিজ্ঞাসা করছি তা হ'ল: স্ট্যান্ডার্ড বিচ্যুতিটি কি বিদেশী সনাক্তকরণের জন্য কোনও শব্দ পদ্ধতি ব্যবহার করে?


1
আপনি বলেছেন, "আমার ক্ষেত্রে এই প্রক্রিয়াগুলি শক্তিশালী"। অর্থ কি? আপনি কি নিশ্চিত যে আপনার কাছে ডেটা এন্ট্রি ভুল নেই?
ওয়েইন

এখানে অনেক ভাল উত্তর আছে যে আমি নিশ্চিত না যে কোন উত্তরটি মেনে নেব! এ সম্পর্কিত যে কোনও দিকনির্দেশনা সহায়ক হবে
অমারাল্ড

সাধারণভাবে, আপনি যে প্রশ্নটি আপনার প্রশ্নের উত্তর সর্বাধিক প্রত্যক্ষ এবং স্পষ্ট বলে মনে করেন, তা নির্বাচন করুন এবং যদি তা বলা খুব শক্ত হয় তবে আমি সর্বোচ্চ ভোট নিয়ে তার সাথে যাব। এমনকি কোনটি ঠিক করাটা খানিকটা বেদনাদায়ক, যিনি উত্তর দেওয়ার জন্য সময় নিয়েছেন তাকে পুরস্কৃত করা জরুরী।
ওয়েইন

1
পিএস আপনি "এই প্রক্রিয়াগুলি শক্তিশালী" বলতে আপনার অর্থ কী তা দয়া করে একটি নোট দিয়ে পরিষ্কার করতে পারেন? এটি উত্তরগুলির পক্ষে সমালোচনা নয়, যা স্বাভাবিকতা ইত্যাদির উপর জোর দেয়, তবে আমি মনে করি এটির কিছুটা প্রভাব রয়েছে।
ওয়েইন

3
আউটলিয়াররা মডেল-মুক্ত নয়। একটি মডেলের অধীনে একটি অস্বাভাবিক আউটলেটর অন্যের অধীনে একেবারে সাধারণ পয়েন্ট হতে পারে। প্রথম প্রশ্নটি হওয়া উচিত "আপনি আউটলিয়ারদের সনাক্ত করার চেষ্টা করছেন কেন?" (পরিবর্তে অন্য কিছু করার পরিবর্তে তাদের ব্যবহারের পদ্ধতিগুলি শক্তিশালী করুন), এবং দ্বিতীয়টি হ'ল "আপনার নির্দিষ্ট প্রয়োগের ক্ষেত্রে কোনও পর্যবেক্ষণকে পর্যবেক্ষণকে কী করে তোলে?"
গ্লেন_বি -রিনস্টেট মনিকা

উত্তর:


26

কিছু outliers স্পষ্টভাবে অসম্ভব । আপনি শিশুর ওজনের জন্য 48 কেজি উল্লেখ করেছেন। এটি স্পষ্টতই একটি ত্রুটি। এটি কোনও পরিসংখ্যানগত সমস্যা নয়, এটি একটি বাস্তব বিষয়। 48 কেজি মানুষের বাচ্চা নেই। যে কোনও পরিসংখ্যান পদ্ধতি এই জাতীয় পয়েন্টটি সনাক্ত করবে।

ব্যক্তিগতভাবে, কোনও পরীক্ষার উপর নির্ভর না করে (এমনকি উপযুক্তগুলিও, @ মিশেল প্রস্তাবিত) আমি ডেটা গ্রাফ করব। কিছু অনুমানযুক্ত বিতরণের অধীনে একটি নির্দিষ্ট ডেটা মান (বা মান) অসম্ভব তা দেখানো মানে এই নয় যে মানটি ভুল এবং তাই মানগুলি কেবলমাত্র চরম হওয়ায় সেগুলি স্বয়ংক্রিয়ভাবে মোছা উচিত নয়।

তদতিরিক্ত, আপনি যে নিয়মটির প্রস্তাব দিচ্ছেন (মধ্য থেকে 2 এসডি) এটি একটি পুরানো যা কম্পিউটারগুলি জিনিসগুলিকে সহজ করার আগের দিনগুলিতে ব্যবহার করা হত। যদি এন 100,000 হয়, তবে নিখুঁত স্বাভাবিক বিতরণ থাকলেও আপনি অবশ্যই গড় থেকে 2 এসডি-র চেয়ে বেশি কয়েকটি মান আশা করতে পারেন।

তবে বিতরণ ভুল হলে কী হবে? ধরুন, জনসংখ্যায়, প্রশ্নে পরিবর্তনশীলগুলি সাধারণত বিতরণ করা হয় না তবে এর চেয়েও ভারী লেজ রয়েছে?


1
শিশুর ওজনের সবচেয়ে বড় মূল্যটি কী আপনি সম্ভব বলে বিবেচনা করবেন?
999

2
আমি জানি না। তবে একটি রেকর্ড সন্ধান করতে পারে। উত্তর ডটকম অনুসারে (একটি দ্রুত গুগল থেকে) এটি ছিল ২৩.১২ পাউন্ড, যা দ্বিধাদ্বন্ধে দু'জন পিতা-মাতার জন্মগ্রহণ করেছিল। আমি যদি গবেষণাটি করছিলাম তবে আমি আরও চেক করব।
পিটার ফ্লুম - মনিকা পুনরায়

যদি কেউ দৃশ্যত ডেটাটি পরীক্ষা করতে না পারে (যেমন এটি কোনও স্বয়ংক্রিয় প্রক্রিয়ার অংশ হতে পারে?)
ব্যবহারকারী 90772

কোনওভাবে অটোমেশনে গ্রাফ যুক্ত করুন।
পিটার ফ্লুম - মনিকা পুনরায়

24

হ্যাঁ। অলটিয়ারদের "সনাক্ত" করার এটি একটি খারাপ উপায়। সাধারণত বিতরণ করা তথ্যের জন্য, এই জাতীয় পদ্ধতিটি 5% পুরোপুরি ভাল (এখনও কিছুটা চরম) পর্যবেক্ষণকে "আউটলিয়ার" বলবে। এছাড়াও যখন আপনার আকারের একটি নমুনা থাকে এবং আপনি তাদেরকে বিদেশী বলে ডাকার জন্য অত্যন্ত উচ্চ বা নিম্ন পর্যবেক্ষণ সন্ধান করেন, আপনি সত্যই চরম অর্ডার পরিসংখ্যানের দিকে তাকিয়ে আছেন। সাধারণত বিতরণ করা নমুনার সর্বাধিক এবং সর্বনিম্ন সাধারণত বিতরণ করা হয় না। সুতরাং পরীক্ষা চূড়ান্ত বিতরণ উপর ভিত্তি করে করা উচিত। গ্রুবসের পরীক্ষা এবং ডিক্সনের অনুপাত পরীক্ষা এটিই করে যা আমি এর আগে বেশ কয়েকবার উল্লেখ করেছি। এমনকি আপনি যখন বিদেশীদের জন্য উপযুক্ত পরীক্ষা ব্যবহার করেন তখনও পর্যবেক্ষণকে অস্বীকার করা উচিত নয় কারণ এটি অস্বাভাবিকভাবে চরম। চূড়ান্ত পর্যবেক্ষণ কেন প্রথম হয়েছিল তা আপনার তদন্ত করা উচিত।


1
লো-পি-মানের উপর ভিত্তি করে H0 প্রত্যাখ্যান করার মতোই "খারাপ"।
লিও

16

যখন আপনি কোনও সম্ভাব্য আউটলেটারের গড় থেকে কতগুলি স্ট্যান্ডার্ড বিচ্যুতি জিজ্ঞাসা করেন, তখন ভুলে যাবেন না যে আউটলেটার নিজেই এসডি বাড়িয়ে তুলবে, এবং গড়টির মানকেও প্রভাবিত করবে। আপনার যদি N মান থাকে তবে এসডি দ্বারা বিভাজিত গড় থেকে দূরত্বের অনুপাতটি কখনই (N-1) / sqrt (N) অতিক্রম করতে পারে না। এটি ক্ষুদ্র নমুনার সাথে অবশ্যই সবচেয়ে গুরুত্বপূর্ণ matters উদাহরণস্বরূপ, যদি এন = 3, কোনও আউটিলার সম্ভবত গড় থেকে 1.155 * এসডি বেশি হতে পারে না, সুতরাং কোনও মানের পক্ষে গড় থেকে 2 এসডি বেশি হওয়া অসম্ভব। (এটি অবশ্যই ধরে নিয়েছে যে আপনি হাতে থাকা ডেটা থেকে স্যাম্পল এসডি গণনা করছেন, এবং জনসংখ্যার এসডি জানার কোনও তাত্ত্বিক কারণ নেই)।

গ্রাবস পরীক্ষার জন্য সমালোচনামূলক মানগুলি এটি বিবেচনায় নিতে গণনা করা হয়েছিল, এবং তাই নমুনার আকারের উপর নির্ভর করে।


12

আমি মনে করি প্রসঙ্গে সবকিছু। প্রদত্ত উদাহরণের জন্য, হ্যাঁ স্পষ্টভাবে একটি 48 কেজি বাচ্চা ভ্রান্ত এবং 2 স্ট্যান্ডার্ড বিচ্যুতির ব্যবহার এই কেসটিকে ধরবে। যাইহোক, এটি ভাবার কোনও কারণ নেই যে 2 টি স্ট্যান্ডার্ড বিচ্যুতির (বা এসডি-র কোনও কোনও একাধিক) ব্যবহার অন্যান্য ডেটার জন্য উপযুক্ত। উদাহরণস্বরূপ, যদি আপনি পৃষ্ঠের জলে কীটনাশকের অবশিষ্টাংশগুলি খুঁজছেন তবে 2 স্ট্যান্ডার্ড বিচ্যুতির বাইরে ডেটা মোটামুটি সাধারণ। এই বিশেষত উচ্চ মানগুলি "বিদেশী" নয়, যদিও তারা বৃষ্টিপাতের ঘটনাগুলি, সাম্প্রতিক কীটনাশক প্রয়োগ ইত্যাদির কারণে এগুলি গড় থেকে দূরে থাকে তবে অবশ্যই আপনি অন্যান্য "থাম্বের নিয়ম" তৈরি করতে পারেন (কেন 1.5% নয়) এসডি, বা 3.1415927 × এসডি?), তবে প্রকৃতপক্ষে এই জাতীয় বিধিগুলি রক্ষা করা শক্ত এবং আপনার সাফল্য বা ব্যর্থতা আপনি যে ডেটা পরীক্ষা করছেন তার উপর নির্ভর করে পরিবর্তিত হবে। আমি মনে করি সিদ্ধান্ত এবং যুক্তি ব্যবহার করে, subjectivity থাকা সত্ত্বেও, স্বেচ্ছাসেবীর নিয়ম ব্যবহার না করে বিদেশী থেকে মুক্তি পাওয়ার জন্য একটি উত্তম পদ্ধতি। এই ক্ষেত্রে, 48 কেজি আউটলেট সনাক্ত করতে আপনার 2 ডিগ্রি এসডি লাগবে না - আপনি এটি যুক্তি দিতে সক্ষম হয়েছিলেন। এটা কি উন্নত পদ্ধতি নয়? যেসব ক্ষেত্রে আপনি এটি যুক্তি দিতে পারবেন না, ভাল, স্বেচ্ছাচারী নিয়মগুলি কি আরও ভাল হয়?

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.