মাল্টিমোডাল বিতরণের জন্য বক্স-ও-হুইস্কার প্লট


13

আমি কি বাক্স-ও-হুইস্কার প্লটগুলি মাল্টিমোডাল বিতরণের জন্য বা কেবল ইউনিমোডাল বিতরণের জন্য ব্যবহার করতে পারি?


একাধিক মোডের সাথে বিতরণের জন্য সাধারণ শব্দটি হবে ' মাল্টিমোডাল '। যদি আপনি এর অর্থ হ'ল দয়া করে স্বাভাবিক শব্দটি ব্যবহার করতে সম্পাদনা করুন। আপনি যদি অন্য কিছু বোঝাতে চান তবে দয়া করে শব্দটি সংজ্ঞায়িত করুন।
গ্লেন_বি -ইনস্টেট মনিকা

1
বাক্স প্লটগুলি সর্বদা জটিল বিতরণের আকারগুলির জন্য সহায়ক নয়। বিমোডাল ... মাল্টিমোডাল (আমি অনুমান করি যে "পলিমোডাল" এর চেয়ে বেশি সাধারণ শব্দ হওয়া উচিত) আকারগুলি প্রায়শই লুকানো থাকে। অবিশ্বাস্যতা থেকে প্রস্থান কতটা শক্তিশালী তার উপর অনেক নির্ভর করে। অন্যথায় কোনও বেল বাজবে না এবং কোনও ত্রুটি বার্তা আসবে না। এমনকি কোনও হিস্টগ্রাম বা কার্নেলের ঘনত্বের প্রাক্কলন জটিল বিতরণকে ম্যাঙ্গাল করতে পারে; কিছু বিবেচনা করে যে এটি একটি বৈশিষ্ট্য হিসাবে এটি একটি নমুনায় শুধু quirks হয় মোডের অতিরিক্ত গ্রহণযোগ্যতা করা সহজ। আমি বলব যে একমাত্র ধরণের প্লট যা তথ্য হারাবে না তা একটি কোয়ান্টাইল প্লট।
নিক কক্স

@ Glen_b আমি করেছি। আমার বইয়ে তারা পলিমডাল বিভ্রান্তির কথা বলছে। এক চূড়া জন্য unimodal সঠিক?
ব্যবহারকারী 1091344

1
আপনি অবশ্যই একটি বক্স-প্লট ব্যবহার করতে পারেন - কে আপনাকে থামিয়ে দেবে? সমস্যাটি হ'ল স্বাভাবিক বক্সপ্লট মোডের সংখ্যার কোনও ইঙ্গিত দেয় না (যদিও সেখানে বক্সপ্লটগুলির পরিবর্তন রয়েছে যা মাল্টিমোডালটি নির্দেশ করতে পারে)। ডিস্ট্রিবিউশনাল শেপ প্রত্যক্ষ আগ্রহের পরিবর্তে আগ্রহ এবং অবস্থানের আন্তঃ-গ্রুপের তুলনা এবং ছড়িয়ে দেওয়া (বহু গ্রুপ জুড়ে) উপর দৃষ্টি নিবদ্ধ করাতে বক্সপ্লটগুলি আরও ভাল। যদি মাল্টিমোডলটিটি দেখানো গুরুত্বপূর্ণ - বিশেষত কয়েকটি গ্রুপ রয়েছে - তবে আমি দৃ strongly়ভাবে আলাদা ডিসপ্লে বা সম্ভবত বেশ কয়েকটি ব্যবহার করার পরামর্শ দিচ্ছি। (আমি যখন পারব তখনই আমি আমার মন্তব্যে উত্তরে প্রসারিত করব))
গ্লেন_বি -রিনস্টেট মনিকা

1
আপনার প্রমাণ আমাদের এই বই সম্পর্কে ভাল চিন্তা করতে ঝোঁক না।
নিক কক্স

উত্তর:


20

সমস্যাটি হ'ল সাধারণ বক্সপ্লট * সাধারণত মোডের সংখ্যার ইঙ্গিত দিতে পারে না। কিছু (সাধারণত বিরল) পরিস্থিতিতে এটির একটি স্পষ্ট ইঙ্গিত পাওয়া সম্ভব যে ক্ষুদ্রতম সংখ্যার মোড 1 ছাড়িয়ে যায়, তবে সাধারণত প্রদত্ত বক্সপ্লট এক বা কোনও বৃহত্তর সংখ্যার মোডের সাথে সামঞ্জস্যপূর্ণ।

* বিভিন্ন ধরণের বক্সপ্লট-এর বেশ কয়েকটি পরিবর্তনের পরামর্শ দেওয়া হয়েছে যা ঘনত্ব এবং ক্যামের পরিবর্তনগুলি চিহ্নিত করতে আরও একাধিক মোড সনাক্ত করতে ব্যবহৃত হয়, তবে আমি মনে করি না যে এগুলি এই প্রশ্নের উদ্দেশ্য।

উদাহরণস্বরূপ, যখন এই চক্রান্ত করে অন্তত দুটি মোড উপস্থিতি নির্দেশ (ডাটা যাতে যথার্থভাবে দুটি আছে উত্পন্ন হয়) -

এখানে চিত্র বর্ণনা লিখুন

বিপরীতে, এই এক এর বিতরণ দুটি খুব স্পষ্ট মোড আছে কিন্তু আপনি কেবল বক্সপ্লট থেকে এটুকু বলতে পারবেন না:

এখানে চিত্র বর্ণনা লিখুন

বক্সপ্লটগুলি অগত্যা বিতরণ সম্পর্কে প্রচুর তথ্য সরবরাহ করে না। হুইস্কারগুলির বাইরে কোনও চিহ্নিত পয়েন্টের অভাবে, এগুলিতে কেবল পাঁচটি মান রয়েছে এবং পাঁচ সংখ্যার সংক্ষিপ্তসারটি বিতরণকে খুব বেশি পিন করে না । তবে উপরের প্রথম চিত্রটি এমন একটি কেস দেখায় যেখানে অবিবাহিত বিতরণ (কমপক্ষে কমপক্ষে 100 এর নমুনা আকার ) বাতিল করার জন্য সিডিএফ পর্যাপ্ত পরিমাণে "পিনড ডাউন" রয়েছে - কোনও ইউনিমডাল সিডিএফ সিডিএফ-এর সীমাবদ্ধতার সাথে সামঞ্জস্যপূর্ণ নয় সেক্ষেত্রে, যার প্রথম প্রান্তিকে তুলনামূলকভাবে তীব্র বৃদ্ধি প্রয়োজন, মাঝারি অর্ধেকের জন্য (গড়) একটি সামান্য হার বৃদ্ধি এবং তারপরে শেষ প্রান্তিকে অন্য তীব্র বৃদ্ধিতে পরিবর্তিত হওয়া প্রয়োজন।এন=

প্রকৃতপক্ষে, চিত্র 1 এখানে (যা আমি বিশ্বাস করি যে একটি ওয়ার্কিং পেপার যা পরে [1] এ প্রকাশিত হয়) একই বক্স প্লটের সাথে চারটি আলাদা আলাদা ডেটা সেট দেখায়।

আমার হাতে সেই ডেটা নেই, তবে অনুরূপ ডেটা সেট করা এটি একটি তুচ্ছ বিষয় - পাঁচ সংখ্যার সংক্ষিপ্তসার সম্পর্কিত উপরের লিঙ্কে নির্দেশিত হিসাবে, আমাদের কেবলমাত্র আয়তক্ষেত্রাকার বাক্সগুলির মধ্যে থাকা আমাদের বিতরণকে সীমাবদ্ধ করতে হবে পাঁচ সংখ্যার সংক্ষিপ্তসার আমাদের সীমাবদ্ধ করে।

এখানে আর কোড যা কাগজে থাকা অনুরূপ ডেটা উত্পন্ন করবে:

x1 = qnorm(ppoints(1:100,a=-.072377))
x1 = x1/diff(range(x1))*18+10
b = fivenum(x1)  # all of the data has this five number summary
x2 = qnorm(ppoints(1:48));x2=x2/diff(range(x2))*.6
x2 = c(b[1],x2+b[2],.31+b[2],b[4]-.31,x2+b[4],b[5])
d = .1183675; x3 = ((0:34)-34/2)/34*(9-d)+(5.5-d/2)
x3 = c(x3,rep(9.5,15),rep(10.5,15),20-x3)
x4 = c(1,rep(b[2],24),(0:49)/49*(b[4]-b[2])+b[2],(0:24)/24*(b[5]-b[4])+b[4])

এখানে উপরের ডেটাগুলিতে কাগজের সাথে একই রকম প্রদর্শন করা হয়েছে (আমি এখানে চারটি বক্সপ্লটই প্রদর্শন করা ছাড়া):

এখানে চিত্র বর্ণনা লিখুন

সাবধান, তবে - হিস্টোগ্রামেও সমস্যা হতে পারে ; প্রকৃতপক্ষে, আমরা এখানে এর একটি সমস্যা দেখতে পাচ্ছি, কারণ তৃতীয় "পিক" হিস্টোগ্রামে বিতরণটি প্রকৃতপক্ষে বিমোডাল; হিস্টোগ্রাম বিন প্রস্থ এটি দেখানোর জন্য খুব প্রশস্ত। তদ্ব্যতীত, নিক কক্স মন্তব্যগুলিতে উল্লেখ করেছেন, কার্নেলের ঘনত্বের অনুমানগুলি মোডের সংখ্যার ছাপকেও প্রভাবিত করতে পারে (কখনও কখনও মূল বিভাজনে কিছু উপস্থিত না ... বা কখনও কখনও ছোট মোডগুলি প্রস্তাব দেয়) none এক অবশ্যই অনেকগুলি সাধারণ ডিসপ্লে ব্যাখ্যার সাথে যত্ন নিতে হবে take

বক্সপ্লট-এর কিছু পরিবর্তন রয়েছে যা মাল্টিমোডালটির (ফুলদানি প্লট, বেহালা প্লট এবং শিম প্লটগুলি, অন্য অনেকের মধ্যে) আরও ভালভাবে নির্দেশ করতে পারে। কিছু পরিস্থিতিতে এগুলি কার্যকর হতে পারে তবে আমি যদি মোডগুলি সন্ধান করতে আগ্রহী তবে আমি সাধারণত ভিন্ন ধরণের প্রদর্শন দেখব।

x4

[1]: চুনপ্রাদব, সি।, এবং ম্যাকনিল, ডি। (2005),
"বক্সপ্লট কি উন্নত করা যায়?"
সংকলনাকরিন জে। সাই। Technol। , 27 : 3, পৃষ্ঠা 649-657।
http://www.jourlib.org/paper/2081800
পিডিএফ


2
মোডগুলিতে দুটি বিস্তৃত মন্তব্য। 1. মোডিয়ালিটির নির্দিষ্ট প্যাটার্নের একটি ভাল পরীক্ষা হ'ল এটি একই আকারের নমুনায় বারবার পুনরাবৃত্তি করে কিনা। আমার অভিজ্ঞতা মোডগুলি সেই অর্থে অত্যন্ত চঞ্চল হতে পারে। ২. মোডগুলি বিবেচনা করার সময় কোনও মোডের যথেষ্ট ব্যাখ্যা আছে কিনা তা সর্বদা জিজ্ঞাসা করার পক্ষে। তবে প্রতিটি যুক্তি ভুল হতে পারে; আমি যদি সঠিকভাবে স্মরণ করি তবে বেশিরভাগ লোকেরা অনুমান করতে পারবেন যে পুরুষ ও স্ত্রীলোকদের মিশ্রণ উচ্চতা বন্টনে দ্বিপাক্ষিকতা সরবরাহ করবে, তবে এটি উচ্চমানের বৃহত নমুনাগুলিতেও সনাক্ত করা শক্ত।
নিক কক্স

1
@ নিককক্স ধন্যবাদ; আসলে, আমি অনুমান করেছি যে উচ্চতাগুলি বিমোডাল হবে না; কল্পনা করুন (বাস্তবের মোটামুটি অনুমান হিসাবে) আমরা দুটি সাধারণ বিতরণকে একই ধরণের স্ট্যান্ডার্ড বিচ্যুতি হিসাবে বিবেচনা করেছি, যার অর্থ প্রায় 1 এসডি দ্বারা পৃথক, প্রায় পুরুষ হিসাবে প্রায় পুরুষ les তারপরে বাস্তবে সম্মিলিত (দুটি স্বাভাবিকের মিশ্রণ) বন্টন সর্বসম্মত। বাস্তবতা কিছুটা জটিল, অবশ্যই - উভয় বিতরণ জাতিগত গোষ্ঠীর মিশ্রণ, এমনকি লিঙ্গ এবং নৃতাত্ত্বিক গোষ্ঠীর মধ্যে আঁকানো হয়, বিভিন্ন রূপ রয়েছে এবং উপায়গুলি 1s এর বেশি পৃথক হয়, তবে ফলাফল (অবিশ্বাস্যতা) আমাদের অবাক করে না
Glen_b -Rininstate মনিকা

3
এটি পতাকাঙ্কিত করার মতো বিষয় যে জে ডাব্লু টুকি তার এক্সপ্লোরারি ডেটা বিশ্লেষণে (পড়া, এমএ: অ্যাডিসন-ওয়েসলি, 1977) রায়লেগের তথ্যের একটি বিন্দু প্লট অন্তর্ভুক্ত করেছিল, যা আর্গন আবিষ্কার করেছিল, বাইমোডাল প্যাটার্ন হিসাবে বাক্স প্লটগুলি অকেজো এবং অন্য একটি প্রদর্শন, টুকির ক্ষেত্রে একটি বিন্দু প্লট, কাঠামোটি দেখতে প্রয়োজন। টুকি যেমন বক্স প্লট নামে পরিচিত এবং এটির নতুন উদ্ভাবক ছিলেন তেমন সুপরিচিত নয়।
নিক কক্স

7

আর-এর সাথে মাল্টিমোডালিটি সনাক্ত করার জন্য একাধিক বিকল্প রয়েছে below বাক্সপ্লট অন্যদের দ্বারা পরিষ্কারভাবে ছাপিয়ে গেছে (বেহালা প্লটটি দেখতে বিভিন্ন ডিফল্ট কার্নেল ঘনত্বের সেটিংসের মতো দেখায়), তবে সত্যিই 0 এবং 1 মোডের মধ্যে পার্থক্য নেই। কম্পিউটার যুগে বক্সপ্লটগুলি আর ব্যবহার করার সত্যিই খুব কম কারণ রয়েছে। কেন তথ্য ছুঁড়ে?

এখানে চিত্র বর্ণনা লিখুন

dat <- c(rnorm(500, -3, 1), rnorm(200, 0, 1), rnorm(300, 1, 1))

par(mfrow=c(2, 2))
boxplot(dat, horizontal=TRUE, main="Boxplot")

require(beanplot)
beanplot(dat, horizontal=TRUE, main="Beanplot")

require(viopoints)
viopoints(dat, horizontal=TRUE, main="Viopoints")

require(vioplot)
vioplot(dat, horizontal=TRUE)
title("Violin Plot")
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.