একই স্কেলে দুটি হিস্টোগ্রাম রাখার সেরা উপায়?


14

ধরা যাক আমার দুটি ডিস্ট্রিবিউশন রয়েছে যা আমি বিশদ সাথে তুলনা করতে চাই, অর্থাত এমনভাবে যা আকার, স্কেল এবং শিফটকে সহজেই দৃশ্যমান করে তোলে। এটি করার একটি ভাল উপায় হ'ল প্রতিটি বিতরণের জন্য একটি হিস্টোগ্রাম প্লট করা, সেগুলিকে একই এক্স স্কেলে রাখা এবং অন্যটির নীচে একটি স্ট্যাক করা।

এটি করার সময়, বিনিং কীভাবে করা উচিত? নীচের চিত্র 1 এর মতো, যদি একটি বিতরণ অন্যের চেয়ে অনেক বেশি ছড়িয়ে পড়ে, তবে উভয়ই হিস্টোগ্রামগুলি একই বিন সীমানা ব্যবহার করা উচিত? জুম করার আগে প্রতিটি হিস্টোগ্রামের জন্য स्वतंत्रভাবে বেনিং করা উচিত, নীচের চিত্র 2 এর মতো? এটিতে কি থাম্বের একটি ভাল নিয়ম আছে?

ছবি ঘ ছবি 2


5
কিউকিউ প্লট অনুভূতিমূলক বিতরণের অন্তর্নিহিত তুলনার জন্য আরও ভাল সরঞ্জাম। এগুলি ব্যবহার করা পুরোপুরি বিনিংয়ের সমস্যা এড়ায়।
হোবার

3
@ হুবার: সম্মত, আপনি যদি কেবল দুটি বিতরণ আলাদা হয় কিনা তার একটি সংবেদনশীল ভিজ্যুয়ালাইজেশন চান তবে হিস্টোগ্রামের পদ্ধতির আইএমএইচও করা যদি আপনি কীভাবে আলাদা হন সে সম্পর্কে বিস্তারিত অন্তর্দৃষ্টি চান ।
dsimcha

3
@dimcha আমার অভিজ্ঞতা বিপরীত হয়েছে। কিউকিউ প্লট স্পষ্টভাবে (পরিমাণগতভাবে) স্কেল, অবস্থান এবং আকারের পার্থক্যগুলি দেখায়, বিশেষত লেজগুলির বেধে। (হিস্টোগ্রামগুলি থেকে সরাসরি দুটি এসডি তুলনা করার চেষ্টা করুন: উদাহরণস্বরূপ: যখন এটির মান কাছাকাছি থাকে তখন এটি অসম্ভব a কিউকিউ প্লটের উপর আপনার কেবল slালু তুলনা করতে হবে, যা দ্রুত এবং তুলনামূলকভাবে নির্ভুল) উপায়গুলি বাছাইয়ের ক্ষেত্রে, তবে কোনও হিস্টোগ্রাম এ পর্যন্ত ভাল নয় যতক্ষণ না একটি শালীন পরিমাণের ডেটা সংগ্রহ করা হয় এবং বিনের একটি ভাল পছন্দ তৈরি না করা হয়।
শুক্র

1
আমি সম্মত হই যে কিউকিউ প্লটগুলি সর্বোত্তম সমাধান, যদিও তারা বিন সমস্যাটি এড়ায় না, তারা কেবল আপনাকে নির্দিষ্ট জায়গায় বিনগুলি স্থাপন করতে বাধ্য করে (কোয়ান্টাইলস :-) অন্যদিকে এটি বোঝায় যে বিনগুলি না করে , সত্যিই দুটি বিতরণ ভাগ করা উচিত নয়।
কনজুগেটপায়ার

1
@ ডিএসিমচা, আমি মনে করি বয়স / লিঙ্গ প্লটের মতো কিছু দরকারী ছবি হতে পারে। যাইহোক কেন এর জন্য হিস্টোগ্রাম ব্যবহার করবেন? কেবল প্লট বিতরণ সরাসরি কাজ করে। তবে, আপনি যদি অভিজ্ঞতামূলক জিনিস নিয়ে খেলছেন, তবে কিউকিউ প্লটের পরামর্শটি সেরা পছন্দ।
দিমিত্রিজ সেলভ

উত্তর:


7

আমার মনে হয় আপনার একই পাতাগুলি ব্যবহার করা উচিত। নাহলে মন আপনার উপর কৌশল চালায়। সাধারণ (0,2) চিত্র # 1 এর তুলনায় চিত্র # 2 এর তুলনায় স্বাভাবিক (0,1) এর তুলনায় আরও ছত্রভঙ্গ দেখায়। পরিসংখ্যান দিয়ে কিছুই করার নেই। দেখে মনে হচ্ছে সাধারণ (0,1) একটি "ডায়েট" করেছে।

-রালফ উইন্টারস

মিডপয়েন্ট এবং হিস্টগ্রামের শেষ পয়েন্টগুলিও ছড়িয়ে পড়ার উপলব্ধি পরিবর্তন করতে পারে। লক্ষ্য করুন যে এই অ্যাপলেটে সর্বাধিক বিন নির্বাচনটি ০.৫ - of 5 এর ব্যাপ্তিকে বোঝায় যখন সর্বনিম্ন বিন নির্বাচনটি <1 -> 5.5 এর পরিসীমা বোঝায়

http://www.stat.sc.edu/~west/javahtml/Histogram.html


1
আপনি কি এই মতামতের জন্য কিছু তাত্ত্বিক ন্যায়সঙ্গততা সরবরাহ করতে পারেন?
whuber

না, শুধু একটি মতামত। তবে আমার যদি সময় থাকে তবে আমি খুচরা প্যাকেজিং ওয়ার্ল্ড (পাতলা দেহের উপলব্ধি) থেকে আমার গবেষণাটি শুরু করব এবং টুফ্টের কিছু কাজ অন্তর্ভুক্ত করব।
রাল্ফ উইন্টারস 20

@ শুভ: এটি আমাদের মস্তিষ্কের তথ্য প্রক্রিয়াজাত করার সাথে সম্পর্কিত। যখন ছোট ছোট বিনগুলি থাকে তখন আমাদের মনটি বক্ররেখার সীমানাও "সঙ্কুচিত করে"। ডুমুর মধ্যে বিন এর আকার বিপরীত করার চেষ্টা করুন। # 2 আমি কী বলতে চাইছি তা দেখতে।
নিকো

@নিকো হ্যাঁ, প্রশ্নের একটি ধারণা উপলব্ধকারী উপাদান রয়েছে। তবে সর্বাগ্রে স্ট্যাটিস্টিকাল ইস্যু কারণ এটির অনেক বেশি প্রভাব রয়েছে: ছোট বিনগুলি ==> বিনয়ের মধ্যে আরও নমুনার পরিবর্তনশীলতা ==> আরও "র‌্যাগড" হিস্টোগ্রাম ==> তুলনায় বেশি অসুবিধা। সুতরাং, আইএমও, যে কোনও উপযুক্ত উত্তরের পরিসংখ্যানতত্ত্ব (সর্বনিম্ন) থেকে সমর্থন যোগ করা উচিত ।
whuber

@whuber: আমি আসলে বন্টন উল্লেখ ছিল বর্ণন ভিন্নভাবে দুটো চিত্রের দিকে ছড়িয়ে যায়। অবশ্যই তারা কীভাবে দেখায় তাদের সত্যই ছড়িয়ে ছিটিয়ে থাকাগুলির সাথে কোনও সম্পর্ক নেই।
নিকো

2

আরেকটি উপায় হ'ল একই প্লটের বিভিন্ন বিতরণ প্লট করা এবং অতি-সমস্যা সমাধানের ক্ষেত্রে alphaপ্যারামিটারের মতো কিছু ব্যবহার করা ggplot2। এই পদ্ধতির ইউটিলিটি আপনার ডিস্ট্রিবিউশনের পার্থক্য বা মিলের উপর নির্ভরশীল যেহেতু সেগুলি একই বিনা দিয়ে প্লট করা হবে। অন্য বিকল্প হ'ল প্রতিটি বিতরণের জন্য স্মুটেড ঘনত্বের বক্ররেখা প্রদর্শন করা। এখানে এই বিকল্পগুলির উদাহরণ এবং থ্রেডে আলোচিত অন্যান্য বিকল্পগুলির উদাহরণ রয়েছে:

library(ggplot2)

df <- melt(
    data.frame( 
        x = rnorm(1000)
        , y = rnorm(1000, 0, 2)
    )
)


ggplot(data = df) + 
#   geom_bar(aes(x = value, fill = variable), alpha = 1/2)
#   geom_bar(aes(x = value)) + facet_grid(variable ~ .)
#   geom_density(aes(x = value, colour = variable))
#   stat_qq(aes(sample = value, colour = variable))

এটি কি উপযুক্ত কার্নেল প্রস্থগুলি নির্বাচন করার বিষয়ে প্রশ্নটিকে কেবল নীচে ঠেলে দেয় না এবং (এবং কীভাবে) বিভিন্ন কার্নেলের প্রস্থ ব্যবহার করে দুটি মসৃণ তুলনা করতে পারে কিনা?
শুক্র

1
@ শুভ - বৈধ পয়েন্ট আমি ঘনত্বের বক্ররেখগুলি কেবলমাত্র অন্য বিকল্পগুলি সরবরাহ করার জন্য সমস্ত পদ্ধতি ব্যবহার করার পরামর্শ দেওয়ার চেষ্টা করছিলাম না। এই পোস্টটি থেকে এটি স্পষ্ট যে যে কোনও পদ্ধতির পক্ষে মতামত রয়েছে, তাই এটি মিশ্রণে ফেলে দেওয়ার জন্য অন্য একটি কার্যকর বিকল্প হিসাবে প্রস্তাব দিচ্ছিল।
তাড়াতাড়ি

এর আলোকে আমি আপনার উত্তরটি ভোট দিচ্ছি, +1।
whuber

0

সুতরাং এটি একই বিন আকার বা বাইন একই সংখ্যা বজায় রাখা প্রশ্ন? আমি উভয় পক্ষের পক্ষে যুক্তি দেখতে পাচ্ছি। একটি কাজ-অ্যারাউন্ড হবে প্রমিত প্রথম মান। তাহলে আপনি উভয় রক্ষণ করতে পারে।


যখন দুটি নমুনার আকার একই হয় তখন এটি কাজ করবে। তবে যখন এগুলি ভিন্ন হয়, সাধারণ বিন আকার (এমনকি মানক ইউনিটগুলিতে) এক বা অন্য হিস্টোগ্রামের জন্য উপযুক্ত হতে পারে তবে উভয়ের পক্ষে নয়। আপনি কিভাবে এই মামলা মোকাবেলা করবে?
whuber

হতে পারে আমরা মানকতার বিভিন্ন অর্থ সম্পর্কে ভাবছি। আমি যার সাথে যুক্ত ছিল তার অর্থ আমি উদাহরণস্বরূপ, যদি একটি জনসংখ্যার 5 টি স্টাডভ থাকে এবং অন্যটির 10 জন স্টাডিভ থাকে, মানীকরণের পরে তাদের উভয়েরই 1 মানদেব থাকে They তারা তখন একই সাথে তুলনামূলকভাবে আরও তুলনা করতে পারে বিনের আকার থেকে প্রতিটি বিনের তুলনামূলক পরিমাণ পিক্সেল এবং ডেটা রয়েছে। অথবা আপনি সম্ভবত বৃহত্তর ইস্যুতে পেয়ে যাচ্ছেন যে "উপযুক্ত বিন আকার" একটি কালো শিল্প যা কিছু তথ্য সেটের কাছে অনন্য ...
xan

আমরা "মানায়ীকৃত" এর একই অর্থ ভাগ করি। একটি বিন আকার নির্বাচন করার জন্য বিচার এবং প্রসঙ্গে জ্ঞান প্রয়োজন, তবে এটি একটি "কালো শিল্প" হিসাবে চিহ্নিত করার জন্য এটি একটি প্রসারিত: উদাহরণস্বরূপ, stats.stackexchange.com/q/798/919 দেখুন
শুক্র
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.