কিউকিপ্লটকে ব্যাখ্যা করা - অ-স্বাভাবিকতার সিদ্ধান্ত নেওয়ার জন্য কি কোনও থাম্বের নিয়ম রয়েছে?


47

আমি QQplots এ পর্যাপ্ত থ্রেড পড়েছি তা বুঝতে এখানে QQplot অন্যান্য স্বাভাবিকতা পরীক্ষার চেয়ে আরও তথ্যপূর্ণ হতে পারে। তবে আমি কিউকিপ্লটসের ব্যাখ্যার সাথে অনভিজ্ঞ। আমি অনেক গুগল; আমি প্রচলিত নন-কিউকিউপ্লোটের অনেকগুলি গ্রাফ পেয়েছি, তবে কীভাবে তাদের ব্যাখ্যা করতে হবে সে সম্পর্কে কোনও স্পষ্ট বিধি নেই, যা বিতরণগুলি জেনে রাখার সাথে "অন্ত্রের অনুভূতি" এর সাথে তুলনা বলে মনে হয় than

আমি জানতে চাই যে আপনার অ-স্বাভাবিকতার বিষয়ে সিদ্ধান্ত নিতে সহায়তা করার জন্য থাম্বের কোনও নিয়ম আছে (বা আপনি জানেন)।

আমি যখন এই দুটি গ্রাফটি দেখলাম তখন এই প্রশ্নটি উপস্থিত হয়েছিল: গ্রাফ 2 গ্রাফ 1

আমি বুঝতে পারি যে অ-স্বাভাবিকতার সিদ্ধান্তটি ডেটা এবং আমি তাদের সাথে কী করতে চাই তার উপর নির্ভর করে; যাইহোক, আমার প্রশ্ন: সাধারণত, যখন সরলরেখা থেকে পর্যবেক্ষণগুলি ছেড়ে দেওয়া অবাস্তবতার সাথে স্বাভাবিকতার সান্নিধ্যের পক্ষে যথেষ্ট প্রমাণ তৈরি করে?

এটি মূল্যবান কিসের জন্য, শাপিরো-উইলক পরীক্ষা উভয় ক্ষেত্রেই অ-স্বাভাবিকতার অনুমানটিকে প্রত্যাখ্যান করতে ব্যর্থ হয়েছিল।


3
কিউকিউ লাইনের আশেপাশের আত্মবিশ্বাস ব্যান্ডগুলি দুর্দান্ত। আপনি যে আর কোডটি ব্যবহার করেছিলেন সেগুলি ভাগ করতে পারেন?
ব্যবহারকারী 60

7
এটি কেবলমাত্র T কোয়ালিটি টুলস} :) থেকে কিউকিপ্লিট ()
গ্রেমেটার 0

উত্তর:


43

নোট করুন যে শাপিরো-উইলক স্বাভাবিকতার একটি শক্তিশালী পরীক্ষা।

সর্বোত্তম পন্থাটি হ'ল আপনি যে জাতীয় পদ্ধতি ব্যবহার করতে চান তা বিভিন্ন ধরণের নন-নরমালতার সাথে কতটা সংবেদনশীল (তার চেয়েও বেশি আপনার প্রভাবকে প্রভাবিত করার জন্য এটি কতটা খারাপভাবে অস্বাভাবিক হতে হবে) এর একটি ভাল ধারণা পাওয়া যায় গ্রহণ করতে পারে)।

প্লটগুলি দেখার জন্য একটি অনানুষ্ঠানিক পন্থাটি হ'ল এমন অনেকগুলি ডেটা সেট তৈরি করা যা আপনার কাছে থাকা একই নমুনা আকারের পক্ষে স্বাভাবিক - (উদাহরণস্বরূপ, তাদের 24 বলুন)। এই জাতীয় প্লটের গ্রিডের মধ্যে আপনার আসল ডেটা প্লট করুন (24 র্যান্ডম সেটগুলির ক্ষেত্রে 5x5)। যদি এটি বিশেষত অস্বাভাবিক খুঁজছেন না (সবচেয়ে খারাপ চেহারা, বলুন) তবে এটি স্বাভাবিকতার সাথে যুক্তিসঙ্গতভাবে সুসংগত।

এখানে চিত্র বর্ণনা লিখুন

আমার চোখে, কেন্দ্রের ডেটা সেট "জেড" প্রায় "ও" এবং "ভি" এবং সম্ভবত "এইচ" এর সাথে সমান দিকে তাকিয়েছে, যখন "ডি" এবং "চ" কিছুটা খারাপ দেখাচ্ছে। "জেড" হ'ল আসল ডেটা। যদিও আমি এটি এক মুহুর্তের জন্য বিশ্বাস করি না যে এটি প্রকৃতপক্ষে স্বাভাবিক, আপনি যখন এটি সাধারণ ডেটার সাথে তুলনা করেন তখন এটি বিশেষত অস্বাভাবিক নয়।

[সম্পাদনা করুন: আমি সবেমাত্র একটি এলোমেলো পোল চালিয়েছি - ভাল, আমি আমার মেয়েকে জিজ্ঞাসা করেছি, তবে মোটামুটি এলোমেলো সময়ে - এবং সোজা লাইনের মতো তার পছন্দটিও "ডি" ছিল। সুতরাং এই সমীক্ষাভুক্ত 100% ধারণা "d" সবচেয়ে বেশি বিজোড় ছিল]]

আরও আনুষ্ঠানিক পদ্ধতির জন্য শাপিরো-ফ্রান্সিয়া পরীক্ষা করা হবে (যা কার্যকরভাবে কিউকিউ-প্লটের মধ্যে সম্পর্কের উপর ভিত্তি করে) তবে (ক) এটি শাপিরো উইলক পরীক্ষার মতো শক্তিশালীও নয়, এবং (খ) আনুষ্ঠানিক পরীক্ষার জবাব দেয় একটি প্রশ্ন (কখনও কখনও) যে কোনওভাবেই আপনার উত্তরটি ইতিমধ্যে জেনে রাখা উচিত (যে তথ্যটি আপনার ডেটা থেকে আঁকানো হয়েছে তা স্বাভাবিক নয়) পরিবর্তে আপনার যে প্রশ্নের জবাব দরকার তা পরিবর্তে (বিষয়টি কীভাবে খারাপ হয়?)।


অনুরোধ হিসাবে, উপরের প্রদর্শনের জন্য কোড। অভিনব কোন কিছুই জড়িত না:

z = lm(dist~speed,cars)$residual
n = length(z)
xz = cbind(matrix(rnorm(12*n),nr=n),z,matrix(rnorm(12*n),nr=n))
colnames(xz) = c(letters[1:12],"Z",letters[13:24])

opar = par()
par(mfrow=c(5,5));
par(mar=c(0.5,0.5,0.5,0.5))
par(oma=c(1,1,1,1));

ytpos = (apply(xz,2,min)+3*apply(xz,2,max))/4
cn = colnames(xz)

for(i in 1:25) {
  qqnorm(xz[,i],axes=FALSE,ylab= colnames(xz)[i],xlab="",main="")
  qqline(xz[,i],col=2,lty=2)
  box("figure", col="darkgreen")
  text(-1.5,ytpos[i],cn[i])
}

par(opar)

দ্রষ্টব্য যে এটি কেবল উদাহরণের উদ্দেশ্যেই ছিল; আমি একটি ছোট ডাটা সেট চেয়েছিলাম যা হালকা অ-স্বাভাবিক দেখায় কারণ আমি গাড়িগুলির ডেটাতে লিনিয়ার রিগ্রেশন থেকে অবশিষ্টাংশগুলি ব্যবহার করি (মডেলটি বেশ উপযুক্ত নয়)। তবে, যদি আমি আসলে কোনও রিগ্রেশনের জন্য একটি রেসিডুয়ালের একটি সেট তৈরির জন্য এই জাতীয় প্রদর্শন তৈরি করতাম, আমি মডেলের মতো একই এর মতো সমস্ত 25 ডেটা সেটগুলি আবার লিখি এবং তাদের অবশিষ্টাংশের কিউকিউ প্লট প্রদর্শন করি, যেহেতু অবশিষ্টাংশগুলির কিছু থাকে কাঠামো স্বাভাবিক এলোমেলো সংখ্যায় উপস্থিত নেই।x

(আমি কমপক্ষে ৮০ এর দশকের মাঝামাঝি থেকে এ জাতীয় প্লট তৈরি করে চলেছি। অনুমানগুলি ধরে রাখার সময় তারা কীভাবে আচরণ করে - এবং যখন তা না করে আপনি কীভাবে প্লটগুলি ব্যাখ্যা করতে পারেন?)

আরো দেখুন:

বুজা, এ। কুক, ডি। হফম্যান, এইচ।, লরেন্স, এম। লি, ই.কে., সুইয়েন, ডিএফ এবং উইকহ্যাম, এইচ। (২০০৯) পরিসংখ্যানমূলক অনুসন্ধানের জন্য ডেটা-এক্সপ্লোরেশন ডেটা বিশ্লেষণ এবং মডেল ডায়াগনস্টিকস ফিল। ট্রান্স। আর.সক। এ ২০০ 36 367, 4361-4383 doi: 10.1098 /rsta.2009.0120


8
+1 টি। আমি আপনার নমুনার কিউকিউ-প্লটগুলি কিছু এলোমেলোভাবে উত্পন্ন উত্সগুলির সাথে তুলনা করার ধারণাটি সত্যিই পছন্দ করি!
COOLSerdash

ধন্যবাদ @ গ্লেেন_ বি। আমি কী আপনাকে জিজ্ঞাসা করতে পারি যে আপনি গ্রাফগুলির গ্রিড কীভাবে উত্পাদন করেছেন?
গ্রেমেটার 0

3
আমি স্রেফ আবিষ্কার করেছি যে আমি তোমার অনুরোধের কোনও উত্তর দিইনি, গ্রেমেটার 0 আমার পুরো স্ক্রিপ্টটি রাখার জন্য সত্যিই জায়গা নেই, তবে আমি এর সংক্ষিপ্ত রূপরেখা করব। আমি প্লটের বিকল্পগুলির সাথে খেলেছি - opar=par(); par(mfrow=c(5,5)); par(mar=c(0.5,0.5,0.5,0.5)); par(oma=c(1,1,1,1))তারপরে একটি লুপে iআমি qqnorm(xz[,i],axes=FALSE,ylab= colnames(xz)[i],xlab="",main=""); qqline(xz[,i],col=2,lty=2); box("figure", col="darkgreen")তারপরে শেষ par(opar)পর্যন্ত অপশনগুলি আগে যা কিছু ছিল সেট করে সেট করেছিলাম। এটি কিছু বিশদটি ছেড়ে দেয় তবে আপনি সেখান থেকে পরিচালনা করতে সক্ষম হবেন।
Glen_b

@ গ্রেইমেটার0 ... এবং এখন আমি আবিষ্কার করেছি যে শেষ পর্যন্ত উত্তর দেওয়ার আগে আমি আপনাকে সঠিকভাবে পিং করিনি। আমার ক্ষমা।
Glen_b

চিন্তা করবেন না গ্লেেন_ বি, মনে রাখার জন্য আপনাকে অনেক ধন্যবাদ!
গ্রেইমেটার 0

22

এখানে সর্বোত্তম উত্তরের সাথে কোনও বিতর্ক না করে আমার কাছে একটি নিয়মের থাম্ব রয়েছে যা প্রায়শই (তবে সর্বদা নয়) সিদ্ধান্তযুক্ত। (@ ড্যান্টের উত্তরের একটি উত্তীর্ণ মন্তব্য যথাযথ বলে মনে হয়))

এটি কখনও কখনও বিবরণে খুব সুস্পষ্ট বলে মনে হয় তবে আপনি এখানে।

আমি যদি বিতরণকে অ-স্বাভাবিক হিসাবে কল করতে পেরে খুশি তবে যদি আমি মনে করি যে আমি কোনও আলাদা বিবরণ দিতে পারি যা স্পষ্টভাবে আরও উপযুক্ত।

সুতরাং, যদি সাধারণ কোয়ান্টাইল-কোয়ান্টাইল প্লটের লেজগুলিতে সামান্য বক্রতা এবং / অথবা অনিয়ম হয় তবে গামা কোয়ান্টাইল-কোয়ান্টাইল প্লটের উপর আনুমানিক সরলতা, আমি বলতে পারি "এটি একটি সাধারণ হিসাবে ভাল বৈশিষ্ট্যযুক্ত নয়; এটি আরও গামার মতো "।

এটি কোনও দুর্ঘটনার বিষয় নয় যে এটি বিজ্ঞানের ইতিহাস ও দর্শনে একটি আদর্শ যুক্তি প্রতিধ্বনিত করে, সাধারণ বৈজ্ঞানিক অনুশীলনের কথা উল্লেখ না করে, যে কোনও হাইপোথিসিস তার স্পষ্টতই আরও ভালভাবে স্থাপন করার সময় সবচেয়ে স্পষ্ট এবং কার্যকরভাবে খণ্ডন করা হয়। (কিউ: কার্ল পপার, টমাস এস কুহান এবং আরও অনেকের জন্য ইশারা))

এটি সত্য যে নবীনদের জন্য এবং সত্যই প্রত্যেকের জন্য "এটি স্বাভাবিক, আমরা সর্বদা প্রত্যাশা করা ছোটখাটো অনিয়মকে বাদ দিয়ে" এবং "এটি সাধারণের থেকে খুব আলাদা, আমরা প্রায়শই কিছুটা মিল খুঁজে পাই except "।

আত্মবিশ্বাস (-র মতো) খামগুলি এবং একাধিক সিমুলেটেড নমুনাগুলি প্রবলভাবে সহায়তা করতে পারে এবং আমি উভয়ই ব্যবহার এবং প্রস্তাব দিই তবে এটিও সহায়ক হতে পারে। (ঘটনাক্রমে, সিমুলেশনের পোর্টফোলিওটির সাথে তুলনা করা একটি সাম্প্রতিক পুনরায় উদ্ভাবন, তবে কমপক্ষে ১৯১৩ সালে শেওহার্টের মতো ফিরে আসে))

আমি আমার শীর্ষ লাইন প্রতিধ্বনিত করব। কখনও কখনও কোনও ব্র্যান্ড-নাম বিতরণ মোটেও উপযুক্ত মনে হয় না এবং আপনি যথাসম্ভব এগিয়ে যেতে হবে।


12

@ গ্লেন_বি বলেছিলেন, আপনি যে ডেটা আপনি নিশ্চিত তা স্বাভাবিকের সাথে আপনার ডেটা তুলনা করতে পারেন - যে ডেটা আপনি নিজেরাই তৈরি করেছেন এবং তারপরে আপনার পেটের অনুভূতিতে ভরসা করছেন :)

নিম্নলিখিতটি ওপেনআইন্ট্রো পরিসংখ্যান পাঠ্যপুস্তকের একটি উদাহরণ

আসুন এই কিউকিউ প্লটটি একবার দেখুন:

qq1

এটা কি স্বাভাবিক? আসুন এটি সাধারণত বিতরণ করা ডেটার সাথে তুলনা করি:

qq2

এটি আমাদের ডেটার চেয়ে ভাল দেখায় তাই আমাদের ডেটা স্বাভাবিক বলে মনে হয় না। আসুন এটি বেশ কয়েকবার সিমুলেট করে এবং পাশাপাশি পাশাপাশি প্লট করে নিশ্চিত করা যাক

qq3

সুতরাং আমাদের অন্ত্র অনুভূতি আমাদের জানায় যে নমুনাটি সাধারণত বিতরণ করার সম্ভাবনা নেই।

এটি করার জন্য আর কোডটি এখানে

load(url("http://www.openintro.org/stat/data/bdims.RData"))
fdims = subset(bdims, bdims$sex == 0)

qqnorm(fdims$wgt, col=adjustcolor("orange", 0.4), pch=19)
qqline(fdims$wgt)

qqnormsim = function(dat, dim=c(2,2)) {
  par(mfrow=dim)
  qqnorm(dat, col=adjustcolor("orange", 0.4), 
         pch=19, cex=0.7, main="Normal QQ Plot (Data)")
  qqline(dat)
  for (i in 1:(prod(dim) - 1)) {
    simnorm = rnorm(n=length(dat), mean=mean(dat), sd=sd(dat))
    qqnorm(simnorm, col=adjustcolor("orange", 0.4), 
           pch=19, cex=0.7,
           main="Normal QQ Plot (Sim)")
    qqline(simnorm)
  }
  par(mfrow=c(1, 1))
}
qqnormsim(fdims$wgt)

9

H0:F=Normal

সাধারণত, বিকল্প অনুমান হিসাবে অন্য যে কোনও বিতরণ বিবেচনা করে এমন পরীক্ষাগুলিতে সঠিক বিকল্প অনুমানের সাথে পরীক্ষার তুলনায় তুলনামূলকভাবে শক্তি কম থাকে (দেখুন, উদাহরণস্বরূপ, 1 এবং 2 )।

বেশ কয়েকটি ননপ্যারামেট্রিক নরমালটি টেস্ট ('ন্যারেস্ট', http://cran.r-project.org/web/packages/nortest/index.html) বাস্তবায়নের সাথে একটি আকর্ষণীয় আর প্যাকেজ রয়েছে । উপরের কাগজপত্রগুলিতে উল্লিখিত হিসাবে, উপযুক্ত বিকল্প অনুমান সহ সম্ভাবনা অনুপাত পরীক্ষা এই পরীক্ষাগুলির চেয়ে আরও শক্তিশালী।

আপনার (লাগানো) মডেল থেকে এলোমেলো নমুনার সাথে আপনার নমুনার তুলনা করার বিষয়ে @ গ্লেন_বি দ্বারা উল্লিখিত ধারণাটি আমার দ্বিতীয় রেফারেন্সে উল্লেখ করা হয়েছে। এগুলিকে "কিউকিউ-খাম" বা "কিউকিউ-ফ্যানস" বলা হয়। এর ফলস্বরূপ একটি বিকল্প অনুমান থেকে ডেটা উত্পন্ন করতে একটি মডেল থাকা দরকার।


4

nY


1
+1 টি। আপনার যদি পাঁচ মিনিট @ ফ্র্যাঙ্ক থাকে তবে আপনি কি এই থ্রেডটি একবার দেখে নিতে পারেন: stats.meta.stackexchange.com/questions/4743 এবং সেখানে ওজন করতে পারেন ? এটি অর্ডিনাল / অর্ডারযুক্ত লজিট / প্রবিটের জন্য আমাদের ট্যাগগুলি সম্পর্কে - একটি সম্পূর্ণ গোছা বা সম্পর্কিত ট্যাগ রয়েছে এবং [অর্ডিনাল] ট্যাগ কীভাবে ব্যবহৃত হয় তাতে কিছুটা অসঙ্গতি রয়েছে, তাই আমি এই ট্যাগগুলি পরিস্কার করার পরামর্শ দিচ্ছি। এগুলি সংগঠিত করার সর্বোত্তম উপায় সম্পর্কে আপনার মতামতটি জেনে রাখা ভাল।
অ্যামিবা বলেছেন মনিকাকে পুনরায়

1
Y
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.