নিম্নলিখিত কাঠামোর সাথে আমার একটি ডেটা সেট রয়েছে:
a word | number of occurrence of a word in a document | a document id
আর-তে সাধারণ বিতরণের জন্য আমি কীভাবে একটি পরীক্ষা করতে পারি? সম্ভবত এটি একটি সহজ প্রশ্ন তবে আমি একজন আর নবাগত।
নিম্নলিখিত কাঠামোর সাথে আমার একটি ডেটা সেট রয়েছে:
a word | number of occurrence of a word in a document | a document id
আর-তে সাধারণ বিতরণের জন্য আমি কীভাবে একটি পরীক্ষা করতে পারি? সম্ভবত এটি একটি সহজ প্রশ্ন তবে আমি একজন আর নবাগত।
উত্তর:
যদি আমি আপনার প্রশ্নটি সঠিকভাবে বুঝতে পারি তবে ডকুমেন্টের একটি সেটে শব্দের উপস্থিতি যদি একটি সাধারণ বিতরণ অনুসরণ করে তবে তা পরীক্ষা করতে আপনি কেবল শাপিরো-উইলক পরীক্ষা এবং কিছু কিউকিপ্লিট ব্যবহার করতে পারেন। উদাহরণ স্বরূপ,
## Generate two data sets
## First Normal, second from a t-distribution
words1 = rnorm(100); words2 = rt(100, df=3)
## Have a look at the densities
plot(density(words1));plot(density(words2))
## Perform the test
shapiro.test(words1); shapiro.test(words2)
## Plot using a qqplot
qqnorm(words1);qqline(words1, col = 2)
qqnorm(words2);qqline(words2, col = 2)
কিউকিপ্লট আদেশগুলি দেয়:
আপনি দেখতে পাচ্ছেন যে দ্বিতীয় ডেটা সেটটি ভারী লেজ ( আরও তথ্য ) দ্বারা পরিষ্কারভাবে স্বাভাবিক নয় ।
শাপিরো-ওয়াকের স্বাভাবিকতা পরীক্ষায়, পি-মানটি প্রথম ডেটা সেট (> .9) এর জন্য বড় তবে দ্বিতীয় ডেটা সেট (<.01) এর জন্য খুব ছোট। এটি আপনাকে দ্বিতীয়টির জন্য নাল অনুমানকে প্রত্যাখ্যান করতে পরিচালিত করবে।
qqline
1 টি opeাল এবং মিউ ইন্টারসেপ্ট থাকবে।
ধরে নিলাম আপনার ডেটাসেটটি ডাকা হয়েছে words
এবং তার একটি counts
কলাম রয়েছে, আপনি বিতরণটির দৃশ্যধারণের জন্য হিস্টগ্রাম প্লট করতে পারেন:
hist(words$counts, 100, col="black")
যেখানে 100 টি বিনের সংখ্যা
আপনি একটি সাধারণ কিউকিউ প্লট ব্যবহার করেও করতে পারেন
qqnorm(words$counts)
শেষ অবধি, আপনি স্বাভাবিকতার জন্য শাপিরো-উইলক পরীক্ষাটিও ব্যবহার করতে পারেন
shapiro.test(word$counts)
যদিও, এই আলোচনাটি দেখুন: সাধারণতা পরীক্ষা: 'প্রয়োজনীয়ভাবে অকেজো?'
কোন পরীক্ষা আপনাকে দেখাবে আপনার ডেটা যে হয়েছে একটি সাধারণ বন্টনের - এটি শুধুমাত্র আপনাকে দেখাতে সক্ষম হবে ডেটা একটি স্বাভাবিক সঙ্গে পর্যাপ্ত অসঙ্গত যে আপনার নাল প্রত্যাখ্যান করবে।
তবে গণনাগুলি কোনও ক্ষেত্রেই স্বাভাবিক নয়, তারা ইতিবাচক পূর্ণসংখ্যার - একটি সাধারণ বন্টন থেকে একটি পর্যবেক্ষণ এমন কোনও মান গ্রহণ করবে যে কোনও পূর্ণসংখ্যা নয়? (... এটি সম্ভাবনার 1 এর ইভেন্ট)।
এই ক্ষেত্রে আপনি কেন স্বাভাবিকতার জন্য পরীক্ষা করবেন? এটা অবশ্যই অসত্য।
[কিছু ক্ষেত্রে এটি অগত্যা গুরুত্বপূর্ণ নয় যে আপনি বলতে পারেন যে আপনার ডেটা আসলে স্বাভাবিক নয়। বাস্তব তথ্য কখনই (বা প্রায় কখনই হয় না) আসলে একটি সাধারণ বিতরণ থেকে আঁকা হতে পারে]]
আপনার যদি সত্যিই কোনও পরীক্ষা করার দরকার হয় তবে শাপিরো-উইলক পরীক্ষা ( ?shapiro.test
) সাধারণতার একটি ভাল সাধারণ পরীক্ষা, যা ব্যাপকভাবে ব্যবহৃত হয়।
স্বাভাবিকতা দেখার আরও একটি আনুষ্ঠানিক উপায় হল কুর্তোসিস এবং স্কিউনেস শূন্যের থেকে উল্লেখযোগ্যভাবে পৃথক কিনা তা পরীক্ষা করে।
এটি করার জন্য, আমাদের পাওয়া দরকার:
kurtosis.test <- function (x) {
m4 <- sum((x-mean(x))^4)/length(x)
s4 <- var(x)^2
kurt <- (m4/s4) - 3
sek <- sqrt(24/length(x))
totest <- kurt/sek
pvalue <- pt(totest,(length(x)-1))
pvalue
}
কুরটোসিসের জন্য, এবং:
skew.test <- function (x) {
m3 <- sum((x-mean(x))^3)/length(x)
s3 <- sqrt(var(x))^3
skew <- m3/s3
ses <- sqrt(6/length(x))
totest <- skew/ses
pt(totest,(length(x)-1))
pval <- pt(totest,(length(x)-1))
pval
}
অসুস্থতার জন্য।
এই উভয় পরীক্ষা এক-লেজযুক্ত, তাই আপনাকে দ্বি-পুচ্ছ হওয়ার জন্য পি-মানটি 2 দিয়ে গুণতে হবে ly আপনার পি-মানটি যদি একের চেয়ে বড় হয়ে যায় তবে আপনাকে কুরটোসিসেস্টের পরিবর্তে 1-কুর্তোসিস.টেষ্ট () ব্যবহার করতে হবে।
আপনার যদি অন্য কোনও প্রশ্ন থাকে তবে আপনি আমাকে j.bredman@gmail.com এ ইমেল করতে পারেন
kurtosis()
এবং skewness()
কার্যগুলি সম্পর্কে ? নমুনা ব্যবহার করে ফলাফল আলাদা Results rnorm()
nortest
আর এর প্যাকেজটি ব্যবহার করে এই পরীক্ষাগুলি পরিচালনা করা যেতে পারে:
অ্যান্ডারসন-ডার্লিং স্বাভাবিকতা পরীক্ষা করুন
ad.test(data1)
স্বাভাবিকতার জন্য ক্র্যামার-ভন মাইজ পরীক্ষা করুন
cvm.test(data1)
স্বাভাবিকতার জন্য পিয়ারসন চি-বর্গ পরীক্ষা করুন
pearson.test(data1)
স্বাভাবিকতার জন্য শাপিরো-ফ্রান্সিয়া পরীক্ষা করুন
sf.test(data1)
normtest
প্যাকেজটি ব্যবহার করে আরও অনেক পরীক্ষা করা যেতে পারে । Https://cran.r-project.org/web/packages/normtest/normtest.pdf এ বর্ণনাটি দেখুন
zipfR
প্যাকেজটি দেখুন।