ডেটাতে লাগানো বিতরণ বিশ্লেষণ করার চেষ্টা করার সময় সম্ভাব্যতা প্লট, পিপি-প্লট এবং কিউকিউ-প্লটের মধ্যে পার্থক্য কী?
ডেটাতে লাগানো বিতরণ বিশ্লেষণ করার চেষ্টা করার সময় সম্ভাব্যতা প্লট, পিপি-প্লট এবং কিউকিউ-প্লটের মধ্যে পার্থক্য কী?
উত্তর:
@ ভেক্টর07 নোট হিসাবে , সম্ভাব্যতা প্লটটি আরও বিমূর্ত বিষয়শ্রেণী যার মধ্যে পিপি-প্লট এবং কিউকি-প্লট সদস্য। সুতরাং, আমি দ্বিতীয়টির মধ্যে পার্থক্যটি আলোচনা করব। পার্থক্যগুলি বোঝার সর্বোত্তম উপায় হ'ল সেগুলি কীভাবে তৈরি করা হয়েছে সে সম্পর্কে চিন্তাভাবনা করা, এবং বুঝতে যে কোনও বিতরণের পরিমাণের পরিমাণ এবং বিতরণের অনুপাতের মধ্যে যে পার্থক্যটি আপনি প্রদত্ত কোয়ান্টাইলটিতে পৌঁছেছেন তার মধ্যে আপনাকে পার্থক্যটি সনাক্ত করতে হবে। আপনি কোনও বিতরণের ক্রমবর্ধমান বিতরণ ফাংশন (সিডিএফ) প্লট করে এগুলির মধ্যে সম্পর্ক দেখতে পারেন । উদাহরণস্বরূপ, স্ট্যান্ডার্ড সাধারণ বিতরণ বিবেচনা করুন:
আমরা দেখতে পাই যে প্রায় y৮% y- অক্ষ (লাল রেখার মধ্যবর্তী অঞ্চল) x- অক্ষের 1/3 (নীল রেখার মধ্যবর্তী অঞ্চল) এর সাথে মিলে যায়। এর অর্থ হ'ল আমরা যখন দুটি বিতরণের মধ্যে ম্যাচটি মূল্যায়ন করার জন্য আমরা যে বিতরণটি পেরিয়েছি তার অনুপাতটি ব্যবহার করি (যেমন, আমরা পিপি-প্লট ব্যবহার করি), আমরা বিতরণের কেন্দ্রে প্রচুর রেজোলিউশন পেয়ে যাব, তবে কম লেজ অন্যদিকে, যখন আমরা দুটি বিতরণের মধ্যে ম্যাচটি মূল্যায়ন করতে কোয়ান্টাইলগুলি ব্যবহার করি (যেমন, আমরা একটি কিউকি প্লট ব্যবহার করি), তখন আমরা লেজগুলিতে খুব ভাল রেজোলিউশন পেয়ে যাব, তবে কেন্দ্রে কম। (যেহেতু ডেটা বিশ্লেষকরা সাধারণত কোনও বিতরণের লেজগুলি সম্পর্কে বেশি উদ্বিগ্ন থাকেন, যা উদাহরণস্বরূপ আরও বেশি প্রভাব ফেলবে, উদাহরণস্বরূপ, পিপি-প্লটের তুলনায় কিউকি-প্লটগুলি বেশি সাধারণ common)
এই তথ্যগুলি কার্যকরভাবে দেখতে, আমি একটি পিপি প্লট এবং একটি কিউকি প্লট নির্মাণের মাধ্যমে চলব। (আমি এখানে মৌখিকভাবে / আরও ধীরে ধীরে একটি কিউকি প্লট নির্মাণের মধ্য দিয়ে হাঁটছি: কিউকিউ প্লট হিস্টগ্রামের সাথে মেলে না )) আপনি আর ব্যবহার করেন কিনা তা আমি জানি না, তবে আশা করি এটি স্ব-ব্যাখ্যামূলক হবে:
set.seed(1) # this makes the example exactly reproducible
N = 10 # I will generate 10 data points
x = sort(rnorm(n=N, mean=0, sd=1)) # from a normal distribution w/ mean 0 & SD 1
n.props = pnorm(x, mean(x), sd(x)) # here I calculate the probabilities associated
# w/ these data if they came from a normal
# distribution w/ the same mean & SD
# I calculate the proportion of x we've gone through at each point
props = 1:N / (N+1)
n.quantiles = qnorm(props, mean=mean(x), sd=sd(x)) # this calculates the quantiles (ie
# z-scores) associated w/ the props
my.data = data.frame(x=x, props=props, # here I bundle them together
normal.proportions=n.props,
normal.quantiles=n.quantiles)
round(my.data, digits=3) # & display them w/ 3 decimal places
# x props normal.proportions normal.quantiles
# 1 -0.836 0.091 0.108 -0.910
# 2 -0.820 0.182 0.111 -0.577
# 3 -0.626 0.273 0.166 -0.340
# 4 -0.305 0.364 0.288 -0.140
# 5 0.184 0.455 0.526 0.043
# 6 0.330 0.545 0.600 0.221
# 7 0.487 0.636 0.675 0.404
# 8 0.576 0.727 0.715 0.604
# 9 0.738 0.818 0.781 0.841
# 10 1.595 0.909 0.970 1.174
দুর্ভাগ্যক্রমে, এই প্লটগুলি খুব স্বতন্ত্র নয়, কারণ এখানে কিছু তথ্য রয়েছে এবং আমরা সঠিক তাত্ত্বিক বিতরণের সাথে সত্যিকারের সাধারণ তুলনা করছি, সুতরাং কেন্দ্র বা বিতরণের পুচ্ছগুলিতে বিশেষভাবে দেখার মতো কিছু নেই। এই পার্থক্যগুলি আরও ভালভাবে প্রদর্শনের জন্য, আমি 4 ডিগ্রি স্বাধীনতার সাথে একটি (ফ্যাট-লেজযুক্ত) টি-বিতরণ এবং নীচে একটি দ্বি-মডেল বিতরণের পরিকল্পনা করি। চর্বিযুক্ত লেজগুলি কিউকিউ প্লটে অনেক বেশি স্বাতন্ত্র্যজনক, যেখানে পিপি-প্লটে দ্বি-গতিশীলতা আরও স্বতন্ত্র।
এখানে v8doc.sas.com থেকে একটি সংজ্ঞা দেওয়া হয়েছে :
একটি পিপি প্লট একটি নির্দিষ্ট তাত্ত্বিক संचयी বিতরণ ফাংশন এফ (·) এর সাথে ডেটা সেটের অভিজ্ঞতাগত সংশ্লেষ বিতরণ ফাংশনটির তুলনা করে। একটি কিউকিউ প্লট বিতরণের নির্দিষ্ট পরিবার থেকে মানক তাত্ত্বিক বিতরণের কোয়ান্টাইলের সাথে ডেটা বিতরণের পরিমাণের তুলনা করে।
পাঠ্যে, তারা আরও উল্লেখ করেছে:
তথ্যসূত্র :
এসএএস ইনস্টিটিউট ইনক। এসএএস অনলাইনডোক, সংস্করণ 8, ক্যারি, এনসি: এসএএস ইনস্টিটিউট ইনক।, 1999