আর - কিউকিপ্লট: কীভাবে ডেটা সাধারণত বিতরণ করা হয় তা দেখুন


47

আমি শাপিরো-উইলকের স্বাভাবিকতা পরীক্ষা করার পরে এটির পরিকল্পনা করেছি। পরীক্ষায় দেখা গেছে যে সম্ভবত জনসংখ্যার সাধারণত বিতরণ করা হয়। তবে এই প্লটটিতে এই "আচরণ" কীভাবে দেখবেন?এখানে চিত্র বর্ণনা লিখুন

হালনাগাদ

ডেটার একটি সাধারণ হিস্টোগ্রাম:

এখানে চিত্র বর্ণনা লিখুন

হালনাগাদ

শাপিরো-উইলক পরীক্ষা বলে:

এখানে চিত্র বর্ণনা লিখুন


6
সম্পাদনাটি পুনরায় করুন: এসডাব্লু পরীক্ষার ফলাফল এই অনুমানটিকে প্রত্যাখ্যান করে যে এই তথ্যগুলি একটি সাধারণ সাধারণ বিতরণ থেকে স্বতন্ত্রভাবে আঁকা হয়েছিল: পি-মানটি খুব কম। (এটি কিউকি প্লটের উভয় ক্ষেত্রেই স্পষ্ট, যা একটি ছোট বাম লেজ প্রদর্শন করে, এবং হিস্টোগ্রামে, যা ইতিবাচক সঙ্কোচ প্রদর্শন করে)) এটি আপনাকে পরীক্ষার ভুল ব্যাখ্যা করার পরামর্শ দেয়। আপনি যখন পরীক্ষার সঠিক ব্যাখ্যা করেন, তখনও কি আপনার কাছে জিজ্ঞাসা করার মতো প্রশ্ন রয়েছে?
whuber

4
বিপরীতে: সফ্টওয়্যার এবং সমস্ত প্লট তাদের কথার সাথে সামঞ্জস্যপূর্ণ। কিউকিউ প্লট এবং হিস্টগ্রাম নির্দিষ্ট উপায়গুলি দেখায় যাতে ডেটা স্বাভাবিকতা থেকে বিচ্যুত হয়; এসডাব্লু টেস্ট বলে যে এই জাতীয় ডেটা কোনও সাধারণ বিতরণ থেকে আসার সম্ভাবনা নেই।
whuber

1
প্লটগুলি কেন বলে যে এটি সাধারণভাবে বিতরণ করা হয়নি? কিউকিপ্লাট একটি সরলরেখা তৈরি করে এবং হিস্টোগ্রামটিও সাধারণভাবে বন্টিত দেখায়? আমি এটি পাই না; (
লে ম্যাক্স

7
কিউকিউ প্লটটি স্পষ্টভাবে সোজা নয় এবং হিস্টগ্রামটি স্পষ্টতই প্রতিসাম্য নয় (যা সাধারণত বিতরণ করা হিস্টগ্রাম অবশ্যই পূরণ করতে পারে এমন অনেক মানদণ্ডের মধ্যে সম্ভবত সবচেয়ে মৌলিক)। সোভেন হোহেনস্টেইনের উত্তর কি কিউ প্লটটি পড়তে পারে তা ব্যাখ্যা করে।
হোবার

1
একই আকারের একটি সাধারণ ভেক্টর তৈরি করা এবং তথ্যটি যখন কোনও সাধারণ বিতরণ থেকে আসে তখন কীভাবে এটি উপস্থিত হতে পারে তা দেখতে সাধারণ ডেটা সহ একটি কিউকিউ-প্লট তৈরি করতে আপনি সহায়ক হতে পারেন।
স্ট্যাটস স্টুডেন্ট

উত্তর:


31

" পরীক্ষায় দেখা গেছে যে সম্ভবত জনসংখ্যার সাধারণত বিতরণ করা হতে পারে " "

না; এটি এটি দেখায় নি।

হাইপোথিসিস পরীক্ষাগুলি আপনাকে জানায় না যে নালটি কতটা সম্ভব। আসলে আপনি এই নালটি বাজি ধরতে পারেন এটি মিথ্যা।

কিউকিউ প্লটটি অ-স্বাভাবিকতার দৃ strong় ইঙ্গিত দেয় না (প্লটটি মোটামুটি সোজা); আপনি যেটা আশা করেছিলেন তার চেয়ে কিছুটা ছোট বাম লেজ রয়েছে তবে এটি আসলে খুব বেশি গুরুত্ব পাবে না।

হিস্টগ্রাম সম্ভবত হিসাবে খুব বেশি কিছু বলে না; এটি সামান্য খাটো বাম লেজের দিকেও ইঙ্গিত দেয়। তবে এখানে দেখুন

আপনার ডেটা যে জনসংখ্যার বিতরণ থেকে এসেছে তা হুবহু স্বাভাবিক হতে পারে না। তবে কিউকিউ প্লটটি দেখায় যে স্বাভাবিকতা সম্ভবত যুক্তিসঙ্গতভাবে ভাল আনুমানিকতা।

যদি নমুনার আকার খুব ছোট না হয়, তবে শাপিরো-উইলকের প্রত্যাখ্যানের অভাব সম্ভবত এটি একইভাবে বলত।

আপডেট: প্রকৃত শাপিরো-উইলক পি-মান অন্তর্ভুক্ত করার জন্য আপনার সম্পাদনাটি গুরুত্বপূর্ণ কারণ বাস্তবে এটি নির্দেশ করবে যে আপনি সাধারণ গুরুত্বপূর্ণ স্তরে নালটিকে প্রত্যাখাত করবেন। এই পরীক্ষাটি নির্দেশ করে যে আপনার ডেটা সাধারণত বিতরণ করা হয় না এবং প্লটগুলি দ্বারা নির্দেশিত হালকা স্কিউনেস সম্ভবত এটিই পরীক্ষা দ্বারা গ্রহণ করা হয়। সাধারণ পদ্ধতির জন্য যা নিজেই পরিবর্তনশীলটির স্বাভাবিকতা ধরে নিতে পারে (এক-নমুনা টি-টেস্টটি মনে মনে আসে), এতে মোটামুটি বৃহত্তর নমুনার আকার বলে মনে হয়, এই হালকা অ-স্বাভাবিকতা প্রায় কোনও ফলশ্রুতি হবে না সর্বোপরি - ফিট পরীক্ষাগুলির ধার্মিকতার মধ্যে অন্যতম সমস্যা হ'ল তারা যখন অস্বীকার করতে পারে তখনই তার পক্ষে বেশি সমস্যা হয় (যখন নমুনার আকারটি কিছু পরিমিত অস্বাভাবিকতা সনাক্ত করতে যথেষ্ট বড় হয়); একইভাবে তারা যখন বিষয়টি সর্বাধিক গুরুত্বপূর্ণ হয় তখন তা প্রত্যাখ্যান করতে ব্যর্থ হওয়ার সম্ভাবনা বেশি থাকে (যখন নমুনার আকার ছোট হয়)।


আসলে, এটি আমাকে ওপি-র বক্তব্য ভুল বোঝাতে বাধ্য করেছে: আমি ভেবেছিলাম তিনি অসম্ভব বলেছিলেন। নোট যে আমি সামান্য আপনার সাথে একমত নই: যখন একটি পরীক্ষা স্বাভাবিকভাবে আপনি বলে কিভাবে অসম্ভাব্য একটি পর্যবেক্ষণ যদি নাল হাইপোথিসিস সত্য হবে, আমরা এটি ব্যবহার যুক্তি দিতে চাই যে যেহেতু আমরা করেনি এই পর্যবেক্ষণ পেতে, নাল হাইপোথিসিস সত্য হতে পারে সম্ভাবনা কম।
নিক সাব্বে

আপনার উত্তরের জন্য ধন্যবাদ! অন্যান্য বক্তব্যগুলি যা অন্য দিক দিয়ে যায় সে সম্পর্কে আমি কিছুটা বিভ্রান্ত হয়ে পড়েছি। এটিকে স্পষ্ট করে বলতে গেলে, আমার নমুনার স্বাভাবিকতা সম্পর্কে বিবৃতি দেওয়া আমার সংক্ষেপণ। তাহলে আমার অধ্যাপকের উত্তর হিসাবে আপনি কী বলতে চান? এবং নমুনার আকারটি বিশাল এমনকি কীভাবে স্বাভাবিকতা প্রদর্শন করবেন?; এস
লে ম্যাক্স

2
সবচেয়ে শক্তিশালী সম্পর্কে আপনি বলতে পারবেন এরকম কিছু হতে পারে - "কিউকিউ প্লটটি স্বাভাবিকতার সাথে যুক্তিসঙ্গতভাবে সামঞ্জস্যপূর্ণ, তবে বাম লেজটি কিছুটা 'ছোট'; স্কিউনেসের হালকা ইঙ্গিত রয়েছে" "
Glen_b

37

যদি তথ্যটি সাধারণত বিতরণ করা হয় তবে কিউকিউ-নমনীয় প্লটের বিন্দুগুলি একটি সরল তির্যক রেখায় থাকে। আপনি কমান্ডটি দিয়ে QQ প্লটে এই লাইনটি যুক্ত করতে পারেন qqline(x)যেখানে xমানগুলির ভেক্টর is

সাধারণ এবং অ-সাধারণ বিতরণের উদাহরণ:

স্বাভাবিক বন্টন

set.seed(42)
x <- rnorm(100)

লাইনের সাথে কিউকিউ-র সাধারণ প্লট:

qqnorm(x); qqline(x)

এখানে চিত্র বর্ণনা লিখুন

সরলরেখা থেকে বিচ্যুতিগুলি ন্যূনতম। এটি স্বাভাবিক বন্টন নির্দেশ করে।

হিস্টোগ্রাম:

hist(x)

এখানে চিত্র বর্ণনা লিখুন

নরমাল (গামা) বিতরণ distribution

y <- rgamma(100, 1)

কিউকিউ-র সাধারণ প্লট:

qqnorm(y); qqline(y)

এখানে চিত্র বর্ণনা লিখুন

পয়েন্টগুলি স্পষ্টভাবে সরলরেখার চেয়ে অন্য আকারকে অনুসরণ করে।

হিস্টগ্রাম অ-স্বাভাবিকতা নিশ্চিত করে। বিতরণটি বেল-আকারের নয় তবে ইতিবাচকভাবে স্কিউড হয় (যেমন, বেশিরভাগ ডেটা পয়েন্টগুলি নীচের অর্ধেক থাকে)। ইতিহাসের সাধারণ বিতরণ বিতরণের কেন্দ্রে সর্বোচ্চ ফ্রিকোয়েন্সি দেখায়।

hist(y)

এখানে চিত্র বর্ণনা লিখুন


আমি দেখতে পেলাম যে কিউকিপ্লাটের উপর আস্থা রাখার ব্যবধানটি কার্যকর। কিছুই "পুরোপুরি" স্বাভাবিক নয়, এবং নমুনা-আকারটি চালিয়ে যেতে পারে যে কোনও জিনিসটি কতটা অক্ষম এবং এখনও সাধারণের মধ্যে থাকতে পারে।
এনগ্রিস্টুডেন্ট - মনিকা

@ ইঙ্গারস্টুডেন্ট কিউকিপ্লট-এ আত্মবিশ্বাসের ব্যবধান অন্তর্ভুক্ত করার জন্য আপনার কাছে কি ভাগ করার কোড রয়েছে?
ড্যানো

1
@danno প্যাকেজে qqPlotফাংশনটি দেখুন car
সোভেন হোহেনস্টেইন

@ এডান্নো - "গাড়ী" লাইব্রেরিতে "কিউকিপ্লট" দেখুন। এটি প্রায় সময় হয়ে গেছে, এবং আমি এটি তৈরি করিনি। এটি আস্থা অন্তর অন্তর্ভুক্ত। আপনি কিছু অ-সাধারণ বিতরণের জন্য বেস বিতরণও নির্দিষ্ট করতে পারেন। এটি নীচে আমার উত্তর হয়।
EngrStudent - মনিকা

1
approximately

23

আর-এ স্বাভাবিকতা অনুমানের বৈধতা যাচাইয়ের জন্য কয়েকটি সরঞ্জাম

library(moments)
library(nortest)
library(e1071)

set.seed(777)
x <- rnorm(250,10,1)

# skewness and kurtosis, they should be around (0,3)
skewness(x)
kurtosis(x)

# Shapiro-Wilks test
shapiro.test(x)

# Kolmogorov-Smirnov test
ks.test(x,"pnorm",mean(x),sqrt(var(x)))

# Anderson-Darling test
ad.test(x)

# qq-plot: you should observe a good fit of the straight line
qqnorm(x)
qqline(x)

# p-plot: you should observe a good fit of the straight line
probplot(x, qdist=qnorm)

# fitted normal density
f.den <- function(t) dnorm(t,mean(x),sqrt(var(x)))
curve(f.den,xlim=c(6,14))
hist(x,prob=T,add=T)

11

আপনার অন্তর্দৃষ্টি কিছু পরীক্ষার ফলাফলের সাথে মেলে কিনা তা দৃষ্টিভঙ্গি যাচাই করা ভাল ধারণা, আপনি প্রতিবার এটি সহজ হওয়ার আশা করতে পারবেন না । লোকেরা যদি হিগস বোসন সনাক্ত করতে চেষ্টা করে তবে তারা যদি তাদের দৃষ্টিভঙ্গিগুলি মূল্যায়ণ করতে পারে তবে কেবল তাদের ফলাফলগুলিতে বিশ্বাস করবে, তাদের খুব তীক্ষ্ণ চোখের প্রয়োজন হবে।

বিশেষত বড় ডেটাসেটের (এবং এইভাবে, সাধারণত ক্রমবর্ধমান শক্তির সাথে), পরিসংখ্যানগুলি ন্যূনতম চোখের সাথে খুব সহজেই স্পষ্ট হয়ে ওঠার পরেও স্বল্পতম পার্থক্য তুলতে ঝোঁক।

এটি বলা হচ্ছে: স্বাভাবিকতার জন্য, আপনার কিউকিউ-প্লটটি একটি সরল রেখা প্রদর্শন করবে: আমি বলব এটি তা নয়। লেজগুলিতে স্পষ্টভাবে বাঁকানো রয়েছে, এমনকি মাঝের কাছে কিছুটা হৈচৈ রয়েছে। দৃশ্যত, আমি এখনও বলতে রাজি হতে পারি (স্বাভাবিকতা পরীক্ষা করার লক্ষ্যের উপর নির্ভর করে) যদিও এই তথ্যটি "যুক্তিসঙ্গতভাবে" স্বাভাবিক।

তবে নোট করুন: বেশিরভাগ উদ্দেশ্যে যেখানে আপনি স্বাভাবিকতা পরীক্ষা করতে চান সেখানে আপনার পর্যবেক্ষণের স্বাভাবিকতার পরিবর্তে কেবলমাত্র উপায়ের স্বাভাবিকতা প্রয়োজন, তাই কেন্দ্রীয় সীমাবদ্ধতা উপপাদ্য আপনাকে উদ্ধার করার জন্য যথেষ্ট হতে পারে। এছাড়াও: যদিও স্বাভাবিকতা প্রায়শই একটি অনুমান যে আপনাকে "সরকারীভাবে" চেক করা দরকার, অনেক পরীক্ষা এই ধারণা অনুমান না করায় বেশ সংবেদনশীল বলে প্রমাণিত হয়েছে।


2

আমি 'আর' গ্রন্থাগার 'গাড়ি'র বাইরে সংস্করণটি পছন্দ করি কারণ এটি কেবল কেন্দ্রীয় প্রবণতাই নয়, আত্মবিশ্বাসের অন্তর অন্তর্ভুক্ত করে। এটি উপাত্তের আচরণ অনুমানমূলক বিতরণের সাথে সামঞ্জস্যপূর্ণ কিনা তা নিশ্চিত করতে ভিজ্যুয়াল গাইডেন্স দেয়।

library(car)

qqPlot(lm(prestige ~ income + education + type, data=Duncan), 
       envelope=.99)

কিছু লিঙ্ক:

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.