আমি জানি যে স্ট্যান্ডার্ড বাক্স-প্লটগুলির একটি সাধারণীকরণ রয়েছে যার মধ্যে হুইকারগুলির দৈর্ঘ্যগুলি স্কিউড ডেটার জন্য অ্যাকাউন্টে সামঞ্জস্য করা হয়। খুব পরিষ্কার ও সংক্ষিপ্ত সাদা কাগজে বিশদগুলি আরও ভালভাবে ব্যাখ্যা করা হয়েছে (ভান্ডারভিয়েরেন, ই।, হুবার্ট, এম। (2004) "স্কিউড ডিস্ট্রিবিউশনের জন্য একটি অ্যাডজাস্টেড বক্সপ্লট", এখানে দেখুন )।
Rrobustbase::adjbox()libra
আমি ব্যক্তিগতভাবে এটিকে ডেটা ট্রান্সফর্মেশনের আরও ভাল বিকল্প দেখতে পাই (যদিও এটি অ্যাড-হক নিয়মের উপর ভিত্তি করেও সাদা কাগজ দেখুন)।
ঘটনাক্রমে, আমি এখানে whuber এর উদাহরণ যোগ করার জন্য আমার কিছু আছে খুঁজে। হুইসারের আচরণ সম্পর্কে আমরা যে পরিমাণ আলোচনা করছি তা বাড়ানোর জন্য দূষিত ডেটা বিবেচনা করার সময় কী ঘটেছিল তা আমাদের সত্যই বিবেচনা করা উচিত:
library(robustbase)
A0 <- rnorm(100)
A1 <- runif(20, -4.1, -4)
A2 <- runif(20, 4, 4.1)
B1 <- exp(c(A0, A1[1:10], A2[1:10]))
boxplot(sqrt(B1), col="red", main="un-adjusted boxplot of square root of data")
adjbox( B1, col="red", main="adjusted boxplot of data")
এই দূষণের মডেলটিতে, বি 1 এর প্রায় 20 শতাংশ ডেটা অর্ধ বাম, অর্ধেক ডানদিকের বহিরাগতদের জন্য সংরক্ষণ করে (অ্যাডজবক্সের ব্রেক ডাউন পয়েন্টটি নিয়মিত বক্সপ্লোটের সমান, অর্থাৎ এটি বেশিরভাগ ধরে ধরে থাকে) 25 শতাংশ ডেটা খারাপ হতে পারে)।
গ্রাফগুলি রূপান্তরিত তথ্যের ক্লাসিকাল বক্সপ্লট চিত্রিত করে (বর্গমূলের রূপান্তর ব্যবহার করে)
এবং অ-রূপান্তরিত ডেটার অ্যাডজাস্ট করা বাক্সপ্লট।
সমন্বিত বক্সপ্লটগুলির সাথে তুলনা করে, পূর্ববর্তী বিকল্পটি প্রকৃত আউটলিয়ারকে মাস্ক করে এবং আউটলিয়ার হিসাবে ভাল ডেটা লেবেল করে। সাধারণভাবে, এটি অপমানকারী পয়েন্টগুলিকে আউটলিয়ার হিসাবে শ্রেণিবদ্ধ করে তথ্যগুলিতে অসামান্যতার কোনও প্রমাণ আড়াল করতে সহায়তা করবে।
এই উদাহরণে, ডেটা বর্গমূলের স্ট্যান্ডার্ড বক্সপ্লট ব্যবহারের পদ্ধতির সাহায্যে 13 জন আউটলিয়ার (সমস্ত ডানদিকে) খুঁজে পাওয়া যায়, যেখানে অ্যাডজাস্ট করা বক্সপ্লট 10 ডান এবং 14 বাম আউটলিয়ার খুঁজে পান।
সম্পাদনা: সংক্ষেপে বাক্স প্লটগুলি সমন্বিত।
'শাস্ত্রীয়' বক্সপ্লটগুলিতে হুইস্কারগুলি এখানে রাখা হয়:
Q1Q3
Q1Q3
থাম্বের এই নিয়মটি অ্যাড-হক: যুক্তিযুক্তি হ'ল যদি তথ্যের অনিয়ন্ত্রিত অংশটি প্রায় গাউসিয়ান হয় তবে এই নিয়মটি ব্যবহার করে ভাল ডেটার 1% এরও কম খারাপ হিসাবে শ্রেণিবদ্ধ করা হবে।
ওপি দ্বারা নির্দেশিত হিসাবে এই বেড়া-নিয়মের একটি দুর্বলতা হ'ল দুটি ফিসারগুলির দৈর্ঘ্য অভিন্ন, যার অর্থ বেড়া-নিয়ম কেবল তখনই বোধগম্য হয় যদি ডেটাগুলির অনিয়ন্ত্রিত অংশটির প্রতিসাম্য বিতরণ থাকে।
একটি জনপ্রিয় পদ্ধতির বেড়া বিধি সংরক্ষণ এবং ডেটা অভিযোজিত হয়। ধারণাটি হ'ল কিছু স্কিউ সংশোধনকারী একঘেয়ে রূপান্তর (স্কোয়ার রুট বা লগ বা আরও সাধারণভাবে বাক্স-কক্স ট্রান্সফর্ম) ব্যবহার করে ডেটা পরিবর্তন করা। এটি কিছুটা অগোছালো দৃষ্টিভঙ্গি: এটি বিজ্ঞপ্তিযুক্ত যুক্তির উপর নির্ভর করে (তথ্যের অনিয়ন্ত্রিত অংশের সঙ্কোচনের সংশোধন করার জন্য রূপান্তরটি বেছে নেওয়া উচিত, যা এই পর্যায়ে অ-পর্যবেক্ষণযোগ্য) এবং ডেটা ব্যাখ্যা করতে আরও শক্ত করে তোলে চাক্ষুষরূপে। যে কোনও হারে, এটি একটি অদ্ভুত প্রক্রিয়া হিসাবে রয়ে গেছে যার ফলে কোনও কোনও অ্যাড-হক রুলের পরে যা আছে তা সংরক্ষণের জন্য ডেটা পরিবর্তন করে।
একটি বিকল্প হ'ল ডেটাটি ছোঁয়া দেওয়া এবং হুইসারের নিয়ম পরিবর্তন করা। অ্যাডজাস্ট করা বক্সপ্লট তথ্যের অনিয়ন্ত্রিত অংশের সঙ্কোচনের পরিমাপ একটি সূচক অনুযায়ী প্রতিটি হুইস্কারের দৈর্ঘ্য পরিবর্তিত করতে দেয়:
Q1exp(M,α)Q3exp(M,β)
Mα β
M≈0
MMαβ
Q1exp(−4M)Q3exp(3M)M≥0
Q1exp(−3M)Q3exp(4M)M<0