নোট করুন যে শাপিরো-উইলক স্বাভাবিকতার একটি শক্তিশালী পরীক্ষা।
সর্বোত্তম পন্থাটি হ'ল আপনি যে জাতীয় পদ্ধতি ব্যবহার করতে চান তা বিভিন্ন ধরণের নন-নরমালতার সাথে কতটা সংবেদনশীল (তার চেয়েও বেশি আপনার প্রভাবকে প্রভাবিত করার জন্য এটি কতটা খারাপভাবে অস্বাভাবিক হতে হবে) এর একটি ভাল ধারণা পাওয়া যায় গ্রহণ করতে পারে)।
প্লটগুলি দেখার জন্য একটি অনানুষ্ঠানিক পন্থাটি হ'ল এমন অনেকগুলি ডেটা সেট তৈরি করা যা আপনার কাছে থাকা একই নমুনা আকারের পক্ষে স্বাভাবিক - (উদাহরণস্বরূপ, তাদের 24 বলুন)। এই জাতীয় প্লটের গ্রিডের মধ্যে আপনার আসল ডেটা প্লট করুন (24 র্যান্ডম সেটগুলির ক্ষেত্রে 5x5)। যদি এটি বিশেষত অস্বাভাবিক খুঁজছেন না (সবচেয়ে খারাপ চেহারা, বলুন) তবে এটি স্বাভাবিকতার সাথে যুক্তিসঙ্গতভাবে সুসংগত।
আমার চোখে, কেন্দ্রের ডেটা সেট "জেড" প্রায় "ও" এবং "ভি" এবং সম্ভবত "এইচ" এর সাথে সমান দিকে তাকিয়েছে, যখন "ডি" এবং "চ" কিছুটা খারাপ দেখাচ্ছে। "জেড" হ'ল আসল ডেটা। যদিও আমি এটি এক মুহুর্তের জন্য বিশ্বাস করি না যে এটি প্রকৃতপক্ষে স্বাভাবিক, আপনি যখন এটি সাধারণ ডেটার সাথে তুলনা করেন তখন এটি বিশেষত অস্বাভাবিক নয়।
[সম্পাদনা করুন: আমি সবেমাত্র একটি এলোমেলো পোল চালিয়েছি - ভাল, আমি আমার মেয়েকে জিজ্ঞাসা করেছি, তবে মোটামুটি এলোমেলো সময়ে - এবং সোজা লাইনের মতো তার পছন্দটিও "ডি" ছিল। সুতরাং এই সমীক্ষাভুক্ত 100% ধারণা "d" সবচেয়ে বেশি বিজোড় ছিল]]
আরও আনুষ্ঠানিক পদ্ধতির জন্য শাপিরো-ফ্রান্সিয়া পরীক্ষা করা হবে (যা কার্যকরভাবে কিউকিউ-প্লটের মধ্যে সম্পর্কের উপর ভিত্তি করে) তবে (ক) এটি শাপিরো উইলক পরীক্ষার মতো শক্তিশালীও নয়, এবং (খ) আনুষ্ঠানিক পরীক্ষার জবাব দেয় একটি প্রশ্ন (কখনও কখনও) যে কোনওভাবেই আপনার উত্তরটি ইতিমধ্যে জেনে রাখা উচিত (যে তথ্যটি আপনার ডেটা থেকে আঁকানো হয়েছে তা স্বাভাবিক নয়) পরিবর্তে আপনার যে প্রশ্নের জবাব দরকার তা পরিবর্তে (বিষয়টি কীভাবে খারাপ হয়?)।
অনুরোধ হিসাবে, উপরের প্রদর্শনের জন্য কোড। অভিনব কোন কিছুই জড়িত না:
z = lm(dist~speed,cars)$residual
n = length(z)
xz = cbind(matrix(rnorm(12*n),nr=n),z,matrix(rnorm(12*n),nr=n))
colnames(xz) = c(letters[1:12],"Z",letters[13:24])
opar = par()
par(mfrow=c(5,5));
par(mar=c(0.5,0.5,0.5,0.5))
par(oma=c(1,1,1,1));
ytpos = (apply(xz,2,min)+3*apply(xz,2,max))/4
cn = colnames(xz)
for(i in 1:25) {
qqnorm(xz[,i],axes=FALSE,ylab= colnames(xz)[i],xlab="",main="")
qqline(xz[,i],col=2,lty=2)
box("figure", col="darkgreen")
text(-1.5,ytpos[i],cn[i])
}
par(opar)
দ্রষ্টব্য যে এটি কেবল উদাহরণের উদ্দেশ্যেই ছিল; আমি একটি ছোট ডাটা সেট চেয়েছিলাম যা হালকা অ-স্বাভাবিক দেখায় কারণ আমি গাড়িগুলির ডেটাতে লিনিয়ার রিগ্রেশন থেকে অবশিষ্টাংশগুলি ব্যবহার করি (মডেলটি বেশ উপযুক্ত নয়)। তবে, যদি আমি আসলে কোনও রিগ্রেশনের জন্য একটি রেসিডুয়ালের একটি সেট তৈরির জন্য এই জাতীয় প্রদর্শন তৈরি করতাম, আমি মডেলের মতো একই এর মতো সমস্ত 25 ডেটা সেটগুলি আবার লিখি এবং তাদের অবশিষ্টাংশের কিউকিউ প্লট প্রদর্শন করি, যেহেতু অবশিষ্টাংশগুলির কিছু থাকে কাঠামো স্বাভাবিক এলোমেলো সংখ্যায় উপস্থিত নেই।এক্স
(আমি কমপক্ষে ৮০ এর দশকের মাঝামাঝি থেকে এ জাতীয় প্লট তৈরি করে চলেছি। অনুমানগুলি ধরে রাখার সময় তারা কীভাবে আচরণ করে - এবং যখন তা না করে আপনি কীভাবে প্লটগুলি ব্যাখ্যা করতে পারেন?)
আরো দেখুন:
বুজা, এ। কুক, ডি। হফম্যান, এইচ।, লরেন্স, এম। লি, ই.কে., সুইয়েন, ডিএফ এবং উইকহ্যাম, এইচ। (২০০৯) পরিসংখ্যানমূলক অনুসন্ধানের জন্য ডেটা-এক্সপ্লোরেশন ডেটা বিশ্লেষণ এবং মডেল ডায়াগনস্টিকস ফিল। ট্রান্স। আর.সক। এ ২০০ 36 367, 4361-4383 doi: 10.1098 /rsta.2009.0120