কোনও আউটলারের বক্স এবং হুইস্কার প্লটের সংজ্ঞা দেওয়ার ভিত্তি কী?


17

একটি বাক্স এবং হুইস্কার প্লটের বাইরে পয়েন্ট , যেখানে এবং কি 1 প্রথম কোয়ার্টাইল এবং ডেটা তৃতীয় কোয়ার্টাইল হয়।{Q11.5IQR,Q3+1.5IQR}IQR=Q3Q1Q1Q3

এই সংজ্ঞা জন্য ভিত্তি কি? প্রচুর পরিমাণে পয়েন্ট সহ, এমনকি একটি সাধারণভাবে সাধারণ বিতরণও বিদেশীদের প্রত্যাবর্তন করে।

উদাহরণস্বরূপ, ধরুন আপনি ক্রমটি শুরু করেছেন:

xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)

এই ক্রমটি 4000 পয়েন্টের ডেটার একটি শতকরা র‌্যাঙ্কিং তৈরি করে।

qnormএই সিরিজের ফলাফলগুলির জন্য স্বাভাবিকতা পরীক্ষা করে ফলাফল:

shapiro.test(qnorm(xseq))

    Shapiro-Wilk normality test

data:  qnorm(xseq)
W = 0.99999, p-value = 1

ad.test(qnorm(xseq))

    Anderson-Darling normality test

data:  qnorm(xseq)
A = 0.00044273, p-value = 1

ফলাফল প্রত্যাশার মতো ঠিক: একটি সাধারণ বিতরণের স্বাভাবিকতা স্বাভাবিক। একটি ক্রিয়েট qqnorm(qnorm(xseq))তৈরি করা (যেমন প্রত্যাশিত) তথ্যের একটি সরল রেখা:

ডেটা QQnorm প্লট

যদি একই ডেটার একটি বক্সপ্ল্যাট তৈরি করা হয়, boxplot(qnorm(xseq))ফলাফল তৈরি করে:

তথ্য বক্সপ্লট

নমুনার আকার পর্যাপ্ত পরিমাণে বড় হওয়ার ক্ষেত্রে বক্সপ্লট বিপরীতে shapiro.test, ad.testবা একাধিক পয়েন্টকে বিদেশী হিসাবে qqnormচিহ্নিত করে (যেমন এই উদাহরণ হিসাবে)।


"ভিত্তি" বলতে কী বোঝ? এই কিছু সংজ্ঞা নেই এবং কেউ বলছেন পুরোপুরি সাধারন বন্টনের outliers নেই
Haitao ডু

2
@ hxd1011, বিতরণের সংজ্ঞা নিজে থেকে আউটলেট হতে পারে না lier কোনও বাক্সে এবং হুইস্কার প্লটের আউটলিয়ারদের জন্য পরীক্ষার জন্য এই সংজ্ঞাটি পরীক্ষার / কোনও কিছু / ফলাফল প্রদানের জন্য পরীক্ষা করছে, যা যা পরীক্ষা করা হয় তা পরীক্ষার ভিত্তি হবে।
টাভ্রোক

আমি মনে করি বাক্স এবং হুইস্কারের আউটলেট সংজ্ঞাটি কিছু কিছু হিউরিস্টিকস ... এছাড়াও, বিতরণের সংজ্ঞা কেন নিজের থেকে কোনও বহিরাগত হতে পারে না?
হাইতাও ডু

3
আপনি কোন নিয়মটি বেছে নিন তা বিবেচনাধীন নয়, আপনি "প্রচুর পরিমাণে পয়েন্ট, এমনকি একটি সাধারণ বিতরণ এমনকি বিদেশীদের প্রত্যাখ্যান করে" বলে শেষ করবেন। [সাধারণ বিতরণ থেকে নমুনা নিলে কোনও পয়েন্ট প্রত্যাখ্যান করতে পারে না এমন
কার্যকরভাবে আউটলিয়ারদের

1
অনেক বার বার উপাখ্যানটি হ'ল জন টুকি, যিনি এই থাম্বের নিয়মটি নিয়ে এসেছিলেন, তাকে জিজ্ঞাসা করা হয়েছিল কেন 1.5; এবং বলেছিল যে 1 টি খুব সামান্য এবং 2 খুব বেশি হবে। আমি এটিকে যেহেতু একটি যথার্থ, শ্রাবণ মাপদণ্ডের হিসাবে ভুলভাবে পড়ে দেখেছি তার প্রাপ্যতাটি নষ্ট হয়ে যাওয়ার জন্য আমি আরও বেশি খুশি হব। এখন আমাদের সকলের কাছে এমন সমস্ত কম্পিউটার রয়েছে যা সমস্ত ডেটা প্রদর্শন করতে পারে!
নিক কক্স

উত্তর:


25

Boxplots

হোয়াগলিন, মোস্টেলার এবং টুকি (2000) এর একটি সম্পর্কিত বিভাগ এখানে রয়েছে : শক্তিশালী এবং অনুসন্ধানী ডেটা বিশ্লেষণ বোঝা Unders উইলি । জন ডি। ইমারসন এবং জুডিথ স্ট্রেনিও রচিত (বাক্স 62 থেকে) "অধ্যায় 3," বক্সপ্লটস এবং ব্যাচের তুলনা ":

[...] চেয়ে ছোট যে ডেটা মান হিসাবে আমাদের বহিরাগতদের তাদের সংজ্ঞা FL32dFFU+32dF

FLFUএফএফইউ-এফএল

তারা এগিয়ে যান এবং গাউসীয় জনগোষ্ঠীর কাছে আবেদনটি দেখায় (পৃষ্ঠা))):

010-0,67450,67451,34943322,02352±2,69822399.3%

সুতরাং

0.7%

আরও তারা লেখেন

[...] এইভাবে আমরা বিচার করতে পারি যে আমাদের ডেটা বহিরাগত কাটঅফসের বাইরে কত পয়েন্ট পড়ে গাউসের চেয়ে বেশি লেজযুক্ত বলে মনে হচ্ছে কিনা। [...]

তারা আউটলেট কাটঅফসের ("মোট% আউট" লেবেলযুক্ত) এর বাইরে থাকা মানের প্রত্যাশিত অনুপাতে একটি সারণী সরবরাহ করে:

সারণী 3-2

সুতরাং এই কাট অফগুলি যেখানে ডেটা পয়েন্টগুলি বিদেশী বা না হয় সে সম্পর্কে কখনই কোনও কঠোর নিয়ম করার ইচ্ছা করেনি। যেমনটি আপনি উল্লেখ করেছেন, এমনকি একটি নিখুঁত সাধারণ বিতরণও বক্সপ্লটে "আউটলিয়ার্স" প্রদর্শন করবে বলে আশা করা যায়।


outliers

আমি যতদূর জানি, আউটলারের কোনও সর্বজনস্বীকৃত সংজ্ঞা নেই। আমি হকিন্স (1980) এর সংজ্ঞাটি পছন্দ করি:

আউটলেটর এমন একটি পর্যবেক্ষণ যা অন্যান্য পর্যবেক্ষণ থেকে সন্দেহকে জাগিয়ে তুলতে এতটাই বিচ্যুত হয় যে এটি কোনও ভিন্ন প্রক্রিয়া দ্বারা উত্পন্ন হয়েছিল।

আদর্শভাবে, আপনি কেবলমাত্র ডেটা পয়েন্টগুলিকে কেবল বিদেশী হিসাবে বিবেচনা করবেন যখন আপনি বুঝতে পারবেন যে কেন তারা বাকী ডেটাটির সাথে সম্পর্কিত নয়। একটি সাধারণ নিয়ম যথেষ্ট নয়। অগ্রগামীদের একটি ভাল চিকিত্সা আগরওয়াল (2013) এ পাওয়া যাবে।

তথ্যসূত্র

আগরওয়াল সিসি (২০১৩): আউটলেট বিশ্লেষণ। স্প্রিঙ্গের।
হকিন্স ডি (1980): আউটলিয়ারদের সনাক্তকরণ। চ্যাপম্যান এবং হল।
হোয়াগলিন, মোস্টেলার এবং টুকি (2000): দৃust় এবং অনুসন্ধানী ডেটা বিশ্লেষণ বোঝা। উইলি।


7

'আউটিলার' শব্দের প্রায়শই অর্থ ধারণ করা হয় 'এমন একটি ডেটা ভ্যালু যা ভুল, বিভ্রান্তিকর, ভুল বা ভাঙা এবং তাই বিশ্লেষণ থেকে বাদ দেওয়া উচিত', তবে টুকি তার বহির্মুখী ব্যবহারের দ্বারা বোঝানো হয়নি। আউটলিয়াররা হ'ল পয়েন্ট যা ডেটাসেটের মাঝারি থেকে অনেক দূরে।

অনেক ডেটাসেটে আউটলিয়ারদের প্রত্যাশা সম্পর্কে আপনার বক্তব্যটি সঠিক এবং গুরুত্বপূর্ণ। এবং বিষয়টিতে অনেকগুলি ভাল প্রশ্ন এবং উত্তর রয়েছে।

অসমীয়াত ডেটা থেকে আউটলিয়ারগুলি সরানো

বিদেশী সমস্যার কারণ হওয়ায় তাদের চিহ্নিত করা এবং অপসারণ করা কি উপযুক্ত?


2

সমস্ত আউটলেট সনাক্তকরণ পদ্ধতিগুলির মতো, কী মানগুলি সত্যিকারের বিদেশী তা নির্ধারণের জন্য যত্ন এবং চিন্তাভাবনা অবশ্যই ব্যবহার করা উচিত। আমি মনে করি বক্সপ্লট কেবলমাত্র ডেটা ছড়িয়ে দেওয়ার জন্য একটি ভাল ভিজ্যুয়ালাইজেশন সরবরাহ করে এবং কোনও সত্যিকারের বিদেশী ধরা সহজ হবে।


0

আমি মনে করি যদি আপনি সাধারণ বিতরণের অংশ হিসাবে কিছু আউটলিয়ার না পান তবে আপনার উদ্বিগ্ন হওয়া উচিত, অন্যথায় সম্ভবত আপনার কোনও কারণ নেই তা সন্ধান করা উচিত। স্পষ্টতই তারা ত্রুটি রেকর্ড করছে না তা নিশ্চিত করার জন্য তাদের পর্যালোচনা করা উচিত, তবে অন্যথায় তারা প্রত্যাশিত।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.