আমি কি বাক্স-ও-হুইস্কার প্লটগুলি মাল্টিমোডাল বিতরণের জন্য বা কেবল ইউনিমোডাল বিতরণের জন্য ব্যবহার করতে পারি?
আমি কি বাক্স-ও-হুইস্কার প্লটগুলি মাল্টিমোডাল বিতরণের জন্য বা কেবল ইউনিমোডাল বিতরণের জন্য ব্যবহার করতে পারি?
উত্তর:
সমস্যাটি হ'ল সাধারণ বক্সপ্লট * সাধারণত মোডের সংখ্যার ইঙ্গিত দিতে পারে না। কিছু (সাধারণত বিরল) পরিস্থিতিতে এটির একটি স্পষ্ট ইঙ্গিত পাওয়া সম্ভব যে ক্ষুদ্রতম সংখ্যার মোড 1 ছাড়িয়ে যায়, তবে সাধারণত প্রদত্ত বক্সপ্লট এক বা কোনও বৃহত্তর সংখ্যার মোডের সাথে সামঞ্জস্যপূর্ণ।
* বিভিন্ন ধরণের বক্সপ্লট-এর বেশ কয়েকটি পরিবর্তনের পরামর্শ দেওয়া হয়েছে যা ঘনত্ব এবং ক্যামের পরিবর্তনগুলি চিহ্নিত করতে আরও একাধিক মোড সনাক্ত করতে ব্যবহৃত হয়, তবে আমি মনে করি না যে এগুলি এই প্রশ্নের উদ্দেশ্য।
উদাহরণস্বরূপ, যখন এই চক্রান্ত করে অন্তত দুটি মোড উপস্থিতি নির্দেশ (ডাটা যাতে যথার্থভাবে দুটি আছে উত্পন্ন হয়) -
বিপরীতে, এই এক এর বিতরণ দুটি খুব স্পষ্ট মোড আছে কিন্তু আপনি কেবল বক্সপ্লট থেকে এটুকু বলতে পারবেন না:
বক্সপ্লটগুলি অগত্যা বিতরণ সম্পর্কে প্রচুর তথ্য সরবরাহ করে না। হুইস্কারগুলির বাইরে কোনও চিহ্নিত পয়েন্টের অভাবে, এগুলিতে কেবল পাঁচটি মান রয়েছে এবং পাঁচ সংখ্যার সংক্ষিপ্তসারটি বিতরণকে খুব বেশি পিন করে না । তবে উপরের প্রথম চিত্রটি এমন একটি কেস দেখায় যেখানে অবিবাহিত বিতরণ (কমপক্ষে কমপক্ষে 100 এর নমুনা আকার ) বাতিল করার জন্য সিডিএফ পর্যাপ্ত পরিমাণে "পিনড ডাউন" রয়েছে - কোনও ইউনিমডাল সিডিএফ সিডিএফ-এর সীমাবদ্ধতার সাথে সামঞ্জস্যপূর্ণ নয় সেক্ষেত্রে, যার প্রথম প্রান্তিকে তুলনামূলকভাবে তীব্র বৃদ্ধি প্রয়োজন, মাঝারি অর্ধেকের জন্য (গড়) একটি সামান্য হার বৃদ্ধি এবং তারপরে শেষ প্রান্তিকে অন্য তীব্র বৃদ্ধিতে পরিবর্তিত হওয়া প্রয়োজন।
প্রকৃতপক্ষে, চিত্র 1 এখানে (যা আমি বিশ্বাস করি যে একটি ওয়ার্কিং পেপার যা পরে [1] এ প্রকাশিত হয়) একই বক্স প্লটের সাথে চারটি আলাদা আলাদা ডেটা সেট দেখায়।
আমার হাতে সেই ডেটা নেই, তবে অনুরূপ ডেটা সেট করা এটি একটি তুচ্ছ বিষয় - পাঁচ সংখ্যার সংক্ষিপ্তসার সম্পর্কিত উপরের লিঙ্কে নির্দেশিত হিসাবে, আমাদের কেবলমাত্র আয়তক্ষেত্রাকার বাক্সগুলির মধ্যে থাকা আমাদের বিতরণকে সীমাবদ্ধ করতে হবে পাঁচ সংখ্যার সংক্ষিপ্তসার আমাদের সীমাবদ্ধ করে।
এখানে আর কোড যা কাগজে থাকা অনুরূপ ডেটা উত্পন্ন করবে:
x1 = qnorm(ppoints(1:100,a=-.072377))
x1 = x1/diff(range(x1))*18+10
b = fivenum(x1) # all of the data has this five number summary
x2 = qnorm(ppoints(1:48));x2=x2/diff(range(x2))*.6
x2 = c(b[1],x2+b[2],.31+b[2],b[4]-.31,x2+b[4],b[5])
d = .1183675; x3 = ((0:34)-34/2)/34*(9-d)+(5.5-d/2)
x3 = c(x3,rep(9.5,15),rep(10.5,15),20-x3)
x4 = c(1,rep(b[2],24),(0:49)/49*(b[4]-b[2])+b[2],(0:24)/24*(b[5]-b[4])+b[4])
এখানে উপরের ডেটাগুলিতে কাগজের সাথে একই রকম প্রদর্শন করা হয়েছে (আমি এখানে চারটি বক্সপ্লটই প্রদর্শন করা ছাড়া):
সাবধান, তবে - হিস্টোগ্রামেও সমস্যা হতে পারে ; প্রকৃতপক্ষে, আমরা এখানে এর একটি সমস্যা দেখতে পাচ্ছি, কারণ তৃতীয় "পিক" হিস্টোগ্রামে বিতরণটি প্রকৃতপক্ষে বিমোডাল; হিস্টোগ্রাম বিন প্রস্থ এটি দেখানোর জন্য খুব প্রশস্ত। তদ্ব্যতীত, নিক কক্স মন্তব্যগুলিতে উল্লেখ করেছেন, কার্নেলের ঘনত্বের অনুমানগুলি মোডের সংখ্যার ছাপকেও প্রভাবিত করতে পারে (কখনও কখনও মূল বিভাজনে কিছু উপস্থিত না ... বা কখনও কখনও ছোট মোডগুলি প্রস্তাব দেয়) none এক অবশ্যই অনেকগুলি সাধারণ ডিসপ্লে ব্যাখ্যার সাথে যত্ন নিতে হবে take
বক্সপ্লট-এর কিছু পরিবর্তন রয়েছে যা মাল্টিমোডালটির (ফুলদানি প্লট, বেহালা প্লট এবং শিম প্লটগুলি, অন্য অনেকের মধ্যে) আরও ভালভাবে নির্দেশ করতে পারে। কিছু পরিস্থিতিতে এগুলি কার্যকর হতে পারে তবে আমি যদি মোডগুলি সন্ধান করতে আগ্রহী তবে আমি সাধারণত ভিন্ন ধরণের প্রদর্শন দেখব।
x4
[1]: চুনপ্রাদব, সি।, এবং ম্যাকনিল, ডি। (2005),
"বক্সপ্লট কি উন্নত করা যায়?"
সংকলনাকরিন জে। সাই। Technol। , 27 : 3, পৃষ্ঠা 649-657।
http://www.jourlib.org/paper/2081800
পিডিএফ
আর-এর সাথে মাল্টিমোডালিটি সনাক্ত করার জন্য একাধিক বিকল্প রয়েছে below বাক্সপ্লট অন্যদের দ্বারা পরিষ্কারভাবে ছাপিয়ে গেছে (বেহালা প্লটটি দেখতে বিভিন্ন ডিফল্ট কার্নেল ঘনত্বের সেটিংসের মতো দেখায়), তবে সত্যিই 0 এবং 1 মোডের মধ্যে পার্থক্য নেই। কম্পিউটার যুগে বক্সপ্লটগুলি আর ব্যবহার করার সত্যিই খুব কম কারণ রয়েছে। কেন তথ্য ছুঁড়ে?
dat <- c(rnorm(500, -3, 1), rnorm(200, 0, 1), rnorm(300, 1, 1))
par(mfrow=c(2, 2))
boxplot(dat, horizontal=TRUE, main="Boxplot")
require(beanplot)
beanplot(dat, horizontal=TRUE, main="Beanplot")
require(viopoints)
viopoints(dat, horizontal=TRUE, main="Viopoints")
require(vioplot)
vioplot(dat, horizontal=TRUE)
title("Violin Plot")