পোইসন বিতরণ করা ডেটার জন্য কি কোনও বক্সপ্লোট বৈকল্পিক রয়েছে?


33

আমি জানতে চাই যে পইসন বিতরণকৃত ডেটা (বা সম্ভবত অন্যান্য বিতরণ) এর সাথে অভিযোজিত কোনও বক্সপ্লট বৈকল্পিক রয়েছে কিনা?

গাউসীয় বিতরণে, এল = কিউ 1 - 1.5 আইকিউআর এবং ইউ = কিউ 3 + 1.5 আইকিউআর স্থাপন করা হুইস্কারগুলির সাথে বক্সপ্লটের সম্পত্তি রয়েছে যে উচ্চতর বহিরাগত (ইউ এর উপরে পয়েন্ট) থাকায় সেখানে প্রায় কম লোকেয়ার (এল এর নীচে পয়েন্ট) থাকবে there )।

তবে ডেটা যদি পয়সন বিতরণ করা হয় তবে আমরা ইতিবাচক সংকোচনের কারণে আর (এক্স <এল) <পিআর (এক্স> ইউ) পেতে পারি না । হুইস্কারগুলি রাখার কোনও বিকল্প উপায় আছে যে এটি পইসন বিতরণকে 'ফিট' করবে?


2
প্রথমে এটি লগ করার চেষ্টা করবেন? আপনি নিজের বক্সপ্লটকে 'ভাল মানিয়ে নিতে' চান তাও বলতে পারেন।
কনজুগেটপায়ার

2
এই জাতীয় পরিবর্তনগুলি করার ক্ষেত্রে একটি সমস্যা আছে - লোকেরা স্ট্যান্ডার্ড বক্সপ্লট সংজ্ঞাতে ব্যবহৃত হয় এবং আপনি সম্ভবত এটি পছন্দ করেন বা না চান তা চক্রান্তের দিকে তাকানোর সময় সম্ভবত এটি ধরে নেওয়া হবে। সুতরাং, এটি লাভের চেয়ে আরও বিভ্রান্তি আনতে পারে।

@mbq:> বক্সপ্লটগুলির সাথে জিনিসটি হ'ল তারা একটি সরঞ্জামে দুটি বৈশিষ্ট্য একত্রিত করে; একটি ডেটা ভিজ্যুয়ালাইজেশন বৈশিষ্ট্য (বাক্স) এবং একটি আউটলেট-সনাক্তকরণ বৈশিষ্ট্য (হুইস্কার)। আপনি যা বলছেন তা পূর্বের সম্পর্কে সম্পূর্ণ সত্য, তবে পরে এটি একটি স্কিউ সামঞ্জস্যতা ব্যবহার করতে পারে।
ইউজার 603

@conjugateprior এখানে একটি পয়েসনের নমুনা রয়েছে: 0, 0, 1, 0, 1, 2, 0, 0, 1, 0, 0 .... কেবল লগ নিয়ে কোনও সমস্যা লক্ষ্য করছেন?
গ্লেন_বি -রিনস্টেট মনিকা

@ গ্লেেন_বি অবশ্যই এটির কারণেই এটি একটি মন্তব্য নয় উত্তর। এবং কেন এটির দুটি অংশ রয়েছে।
কনজুগেটপায়ার

উত্তর:


31

বাক্সপ্লটগুলি সকল ক্ষেত্রে হুইসারের শেষ প্রান্তকে অতিক্রম করার কম সম্ভাবনা নিশ্চিত করার জন্য ডিজাইন করা হয়নি: এগুলি উদ্দেশ্যমূলক এবং সাধারণত ব্যবহৃত হয়, একটি ডেটাসেটের বাল্কের সাধারণ গ্রাফিকাল বৈশিষ্ট্য হিসাবে। যেমন, ডেটাগুলিতে খুব বেশি বিতর্কিত বিতরণ থাকা সত্ত্বেও তারা ভাল থাকে (যদিও তারা প্রায় আনস্কিউড বিতরণ সম্পর্কে তারা যতটা তথ্য প্রকাশ না করে পারে)।

যখন বক্সপ্লটগুলি স্কিউড হয়ে যায়, যেমন তারা পয়সন বিতরণ করবে, তার পরের পদক্ষেপটি অন্তর্নিহিত চলকটি পুনরায় প্রকাশ করা (একঘেয়ে, ক্রমবর্ধমান রূপান্তর সহ) এবং বাক্সপ্লটগুলি পুনরায় আঁকানো। যেহেতু একটি পোইসন বিতরণের বৈচিত্র তার গড়ের সাথে সমানুপাতিক, তাই ব্যবহারের জন্য একটি ভাল রূপান্তর হল বর্গমূল।

প্রতিটি বক্সপ্লট একটি পয়েসন বিতরণ থেকে প্রদত্ত তীব্রতার সাথে চিত্রিত করে (প্রতিটি তীব্রতার জন্য দুটি ট্রায়াল সহ 1 থেকে 10 পর্যন্ত) i খেয়াল করুন যে স্কিউনেস কম থাকে।

পাশাপাশি-বক্স বক্সলটস

বর্গমূলের স্কেলের একই ডেটাতে বক্সপ্লট থাকে যা কিছুটা আরও বেশি প্রতিসাম্যযুক্ত (এবং সর্বনিম্ন তীব্রতা ব্যতীত) তীব্রতা নির্বিশেষে প্রায় সমান আইকিউআর থাকে)।

রূপান্তরিত ডেটা বক্সপ্লট

মোটকথা, বক্সপ্লট অ্যালগরিদম পরিবর্তন করবেন না: পরিবর্তে ডেটা পুনরায় প্রকাশ করুন।


ঘটনাক্রমে, কম্পিউটিংয়ের প্রাসঙ্গিক সম্ভাবনাগুলি হ'ল একই বিতরণ থেকে এন স্বতন্ত্র ড্র থেকে অনুমান করা হয় যে একটি সাধারণ স্বাভাবিক ভেরিয়েট উপরের (নিম্ন) বেড়া ইউ ( এল ) ছাড়িয়ে যায় তার কী সুযোগ ? XULn এটি বাক্সপ্লোটের বেড়াগুলি অন্তর্নিহিত বিতরণ থেকে গণনা করা হয় না তবে তথ্য থেকে অনুমান করা হয় for বেশিরভাগ ক্ষেত্রে, সম্ভাবনাগুলি 1% এর চেয়ে অনেক বেশি! উদাহরণস্বরূপ, এখানে (10,000 মন্টি-কার্লো ট্রায়ালের উপর ভিত্তি করে) লগের হিস্টোগ্রাম (বেস 10) কেস সম্ভাবনার সম্ভাবনা রয়েছে :n=9

সম্ভাবনার হিস্টোগ্রাম

(যেহেতু সাধারণ বিতরণটি প্রতিসম হয় তাই এই হিস্টগ্রাম দুটি বেড়ার ক্ষেত্রেই প্রযোজ্য)) 1% / 2 এর লগারিদম প্রায় -2.3। স্পষ্টতই, বেশিরভাগ সময় সম্ভাবনা এর চেয়ে বেশি হয়। প্রায় 16% সময় এটি 10% ছাড়িয়ে যায়!

n


1
+1, আমি এই থ্রেডটি আগে দেখিনি। অনুভূমিক নিয়মের পরে এখানে এই পোস্টটিতে অন্যভাবে আলোচিত একই পয়েন্টটি আমি তৈরি করেছি (আমি বিশ্বাস করি): স্ট্যাটিস্টিকাল সফ্টওয়্যার দ্বারা বহিরাগত হিসাবে চিহ্নিত হওয়া মামলাগুলি মুছে ফেলা হবে কিনা
গুং - মনিকা পুনরায়

হ্যাঁ, এটি একই গানে @ গুং - এবং আপনি সেখানে একটি দুর্দান্ত উত্তর পোস্ট করেছেন।
whuber

26

আমি জানি যে স্ট্যান্ডার্ড বাক্স-প্লটগুলির একটি সাধারণীকরণ রয়েছে যার মধ্যে হুইকারগুলির দৈর্ঘ্যগুলি স্কিউড ডেটার জন্য অ্যাকাউন্টে সামঞ্জস্য করা হয়। খুব পরিষ্কার ও সংক্ষিপ্ত সাদা কাগজে বিশদগুলি আরও ভালভাবে ব্যাখ্যা করা হয়েছে (ভান্ডারভিয়েরেন, ই।, হুবার্ট, এম। (2004) "স্কিউড ডিস্ট্রিবিউশনের জন্য একটি অ্যাডজাস্টেড বক্সপ্লট", এখানে দেখুন )।

Rrobustbase::adjbox()libra

আমি ব্যক্তিগতভাবে এটিকে ডেটা ট্রান্সফর্মেশনের আরও ভাল বিকল্প দেখতে পাই (যদিও এটি অ্যাড-হক নিয়মের উপর ভিত্তি করেও সাদা কাগজ দেখুন)।

ঘটনাক্রমে, আমি এখানে whuber এর উদাহরণ যোগ করার জন্য আমার কিছু আছে খুঁজে। হুইসারের আচরণ সম্পর্কে আমরা যে পরিমাণ আলোচনা করছি তা বাড়ানোর জন্য দূষিত ডেটা বিবেচনা করার সময় কী ঘটেছিল তা আমাদের সত্যই বিবেচনা করা উচিত:

library(robustbase)
A0 <- rnorm(100)
A1 <- runif(20, -4.1, -4)
A2 <- runif(20,  4,    4.1)
B1 <- exp(c(A0, A1[1:10], A2[1:10]))
boxplot(sqrt(B1), col="red", main="un-adjusted boxplot of square root of data")
adjbox(      B1,  col="red", main="adjusted boxplot of data")

এই দূষণের মডেলটিতে, বি 1 এর প্রায় 20 শতাংশ ডেটা অর্ধ বাম, অর্ধেক ডানদিকের বহিরাগতদের জন্য সংরক্ষণ করে (অ্যাডজবক্সের ব্রেক ডাউন পয়েন্টটি নিয়মিত বক্সপ্লোটের সমান, অর্থাৎ এটি বেশিরভাগ ধরে ধরে থাকে) 25 শতাংশ ডেটা খারাপ হতে পারে)।

গ্রাফগুলি রূপান্তরিত তথ্যের ক্লাসিকাল বক্সপ্লট চিত্রিত করে (বর্গমূলের রূপান্তর ব্যবহার করে)

ক্লাসিকাল বাক্সপ্লট উপর ডেটা স্কোয়ার রুট রূপান্তর

এবং অ-রূপান্তরিত ডেটার অ্যাডজাস্ট করা বাক্সপ্লট।

রূপান্তরিত ডেটার সমন্বিত বক্সপ্লট

সমন্বিত বক্সপ্লটগুলির সাথে তুলনা করে, পূর্ববর্তী বিকল্পটি প্রকৃত আউটলিয়ারকে মাস্ক করে এবং আউটলিয়ার হিসাবে ভাল ডেটা লেবেল করে। সাধারণভাবে, এটি অপমানকারী পয়েন্টগুলিকে আউটলিয়ার হিসাবে শ্রেণিবদ্ধ করে তথ্যগুলিতে অসামান্যতার কোনও প্রমাণ আড়াল করতে সহায়তা করবে।

এই উদাহরণে, ডেটা বর্গমূলের স্ট্যান্ডার্ড বক্সপ্লট ব্যবহারের পদ্ধতির সাহায্যে 13 জন আউটলিয়ার (সমস্ত ডানদিকে) খুঁজে পাওয়া যায়, যেখানে অ্যাডজাস্ট করা বক্সপ্লট 10 ডান এবং 14 বাম আউটলিয়ার খুঁজে পান।

সম্পাদনা: সংক্ষেপে বাক্স প্লটগুলি সমন্বিত।

'শাস্ত্রীয়' বক্সপ্লটগুলিতে হুইস্কারগুলি এখানে রাখা হয়:

Q1Q3

Q1Q3

থাম্বের এই নিয়মটি অ্যাড-হক: যুক্তিযুক্তি হ'ল যদি তথ্যের অনিয়ন্ত্রিত অংশটি প্রায় গাউসিয়ান হয় তবে এই নিয়মটি ব্যবহার করে ভাল ডেটার 1% এরও কম খারাপ হিসাবে শ্রেণিবদ্ধ করা হবে।

ওপি দ্বারা নির্দেশিত হিসাবে এই বেড়া-নিয়মের একটি দুর্বলতা হ'ল দুটি ফিসারগুলির দৈর্ঘ্য অভিন্ন, যার অর্থ বেড়া-নিয়ম কেবল তখনই বোধগম্য হয় যদি ডেটাগুলির অনিয়ন্ত্রিত অংশটির প্রতিসাম্য বিতরণ থাকে।

একটি জনপ্রিয় পদ্ধতির বেড়া বিধি সংরক্ষণ এবং ডেটা অভিযোজিত হয়। ধারণাটি হ'ল কিছু স্কিউ সংশোধনকারী একঘেয়ে রূপান্তর (স্কোয়ার রুট বা লগ বা আরও সাধারণভাবে বাক্স-কক্স ট্রান্সফর্ম) ব্যবহার করে ডেটা পরিবর্তন করা। এটি কিছুটা অগোছালো দৃষ্টিভঙ্গি: এটি বিজ্ঞপ্তিযুক্ত যুক্তির উপর নির্ভর করে (তথ্যের অনিয়ন্ত্রিত অংশের সঙ্কোচনের সংশোধন করার জন্য রূপান্তরটি বেছে নেওয়া উচিত, যা এই পর্যায়ে অ-পর্যবেক্ষণযোগ্য) এবং ডেটা ব্যাখ্যা করতে আরও শক্ত করে তোলে চাক্ষুষরূপে। যে কোনও হারে, এটি একটি অদ্ভুত প্রক্রিয়া হিসাবে রয়ে গেছে যার ফলে কোনও কোনও অ্যাড-হক রুলের পরে যা আছে তা সংরক্ষণের জন্য ডেটা পরিবর্তন করে।

একটি বিকল্প হ'ল ডেটাটি ছোঁয়া দেওয়া এবং হুইসারের নিয়ম পরিবর্তন করা। অ্যাডজাস্ট করা বক্সপ্লট তথ্যের অনিয়ন্ত্রিত অংশের সঙ্কোচনের পরিমাপ একটি সূচক অনুযায়ী প্রতিটি হুইস্কারের দৈর্ঘ্য পরিবর্তিত করতে দেয়:

Q1exp(M,α)Q3exp(M,β)

Mα β

M0

MMαβ

Q1exp(4M)Q3exp(3M)M0

Q1exp(3M)Q3exp(4M)M<0


1
আপনি কীভাবে আমার উদাহরণটিকে "অসহায়" বলে মনে করেন তা জানতে আগ্রহী হব - কেবল এটির ব্র্যান্ডিং যেমন গঠনমূলক নয়। আমি স্বীকার করব যে উদাহরণটি এই অর্থে কিছুটা হতাশার যে ডেটা ট্রান্সফরমেশনটি দর্শনীয় উন্নতির প্রতিনিধিত্ব করে না। পয়সন বিতরণগুলির জন্য এটিই দোষ: এই সমস্ত বিশ্লেষণের বিরক্তিতে তারা যথেষ্ট পরিমাণে স্কুড হয় না!
whuber

@ হুইবার:> প্রথমে, স্বরের জন্য দুঃখিত: এটি একটি সম্পাদনা না করা প্রথম খসড়া থেকে এসেছে এবং এটি সংশোধন করা হয়েছে (আমি সাধারণত শর্টহ্যান্ড অনুচ্ছেদে স্ব স্বতে নোট হিসাবে লিখি, তারপরে বার বার পড়ি - এইটি হারিয়ে গেছে দীর্ঘ আন্ত বায়ু প্রতিক্রিয়া)। এখন সমালোচক নিজেই: আপনার উদাহরণটি অনিয়ন্ত্রিত ডেটার ক্ষেত্রে রূপান্তর ব্যবহার করে সমাধানের আচরণ চিত্রিত করে। আইএমএইচও হুইসারের নিয়মটি প্রাথমিকভাবে ঘটতে হবে - দূষণের মডেলটি মাথায় রেখে মূল্যায়ন করা উচিত।
ব্যবহারকারী 60

@ ব্যবহারকারী স্পষ্টতার জন্য ধন্যবাদ। আমি সমালোচনাটি আপত্তি করি না, যা আকর্ষণীয়, এবং আমি অ্যাডজাস্টেড বক্সপ্লটগুলির উল্লেখগুলির প্রশংসা করি। (+1)
হোবার

আমি ব্যবহারকারীর সাথে agree০৩ এর সাথে একমত হই যে আপনি খাঁটি বিতরণটি পরীক্ষা করেছেন কিনা (যেমন হুবহু জবাব হিসাবে) বা বিতরণ থেকে ডেটা এবং কিছু আউটলিয়ার ( দূষণ হিসাবে এখানে আলোচনা করা হয়েছে) এর মধ্যে পার্থক্য রয়েছে । আমার দৃষ্টিকোণ থেকে, বাস্তব সেটিংসে, একটি বক্সপ্লট বহিরাগতদের স্ক্যান করতে ব্যবহৃত হয়। এরপরে, বক্সপ্লটগুলির একটি বিশ্লেষণ যা আউটলিয়ারদের বাদ দেয় কোনওভাবে পয়েন্টটি মিস করে। অতএব, এই উত্তরটি বক্সপ্লটগুলি ব্যবহারের উদ্দেশ্যে আরও ভাল উদ্দেশ্যে কাজ করে বলে মনে হচ্ছে।
হেনরিক

2
@ হেনরিককে অপ্রত্যাশিতদের সনাক্তকরণ বক্সপ্লটগুলির অনেকগুলি উদ্দেশ্যগুলির মধ্যে একটি। টুকির পদ্ধতির মধ্যে প্রথমে ডেটাগুলির যথাযথ পুনঃপ্রকাশের সন্ধান করা হয়েছিল যা তাদের বিতরণের মাঝামাঝি প্রায় প্রতিসাম্য তৈরি করে। এটি স্কিউনেসের জন্য কোনও সামঞ্জস্যের প্রয়োজনকে প্রতিহত করে। এটি ইতিমধ্যে বক্সপ্লটগুলির মধ্যে তুলনার অনুমতি দেওয়ার ক্ষেত্রে অনেক কিছু সম্পাদন করে, যেখানে তারা সত্যিকারের উপযোগী হয়। হুইস্কারগুলি "অ্যাডজাস্ট করা" সম্পূর্ণরূপে এই মূল সমস্যাটি বাদ দেয়। সুতরাং আমি সমন্বয়টি ব্যবহারে সতর্ক থাকব: এর প্রয়োজনীয়তাটি একটি সংকেত যা বিশ্লেষণটি ভালভাবে করা হচ্ছে না।
whuber
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.