আলোচনা
একটি ক্রমায়ন পরীক্ষা একটি ডেটাসেটের সমস্ত প্রাসঙ্গিক অনুমান উত্পন্ন করে , এই জাতীয় প্রতিটি অনুক্রমের জন্য একটি মনোনীত পরীক্ষার পরিসংখ্যান গণনা করে এবং পরিসংখ্যানের ফলস্বরূপ ক্রম বিতরণ প্রসঙ্গে প্রকৃত পরীক্ষার পরিসংখ্যানকে মূল্যায়ন করে । এটি মূল্যায়নের একটি সাধারণ উপায় হ'ল পরিসংখ্যানগুলির অনুপাতের প্রতিবেদন করা (যা কিছু অর্থে) প্রকৃত পরিসংখ্যানের তুলনায় "হিসাবে বা আরও চরম"। এটিকে প্রায়শই "পি-মান" বলা হয়।
যেহেতু প্রকৃত ডেটাসেট সেই অনুমানের মধ্যে একটি, তাই এর পরিসংখ্যানগুলি প্রয়োজনীয়ভাবে আদেশ বিভাজনের মধ্যে পাওয়া যায় those অতএব, পি-মানটি কখনও শূন্য হতে পারে না।
যদি না ডেটাসেটটি খুব ছোট হয় (প্রায় 20-30 মোট সংখ্যার চেয়ে কম সাধারণত) বা পরীক্ষার পরিসংখ্যানগুলির একটি বিশেষত গাণিতিক ফর্ম থাকে তবে সমস্ত আদেশ উত্পন্ন করতে অনুশীলনযোগ্য নয়। (উদাহরণস্বরূপ যেখানে সমস্ত ক্রম উত্পাদিত হয় সেগুলি আর । এর পারমিটেশন টেস্টে উপস্থিত হয় )) সুতরাং কম্পিউটারের অনুমোদন পরীক্ষার প্রয়োগগুলি সাধারণত ক্রমান্বয়ে বিতরণ থেকে নমুনা দেয়। তারা কিছু স্বতন্ত্র এলোমেলো ক্রম উত্পাদনের মাধ্যমে এটি করে এবং আশা করে যে ফলাফলগুলি সমস্ত ক্রমের একটি প্রতিনিধি নমুনা।
অতএব, এই জাতীয় নমুনা থেকে প্রাপ্ত কোনও সংখ্যা (যেমন "পি-মান") হ'ল কেবল অনুমোদনের বিতরণের বৈশিষ্ট্যগুলির অনুমানকারী । এটি বেশ সম্ভব - এবং প্রভাবগুলি বড় হওয়ার সাথে প্রায়শই ঘটে - অনুমানিত পি-মানটি শূন্য। এতে কোনও ভুল নেই, তবে এটি অবিলম্বে পূর্ববর্তী অবহেলিত বিষয়টি উত্থাপন করে যে অনুমানিত পি-মানটি সঠিকটির থেকে কতটা পৃথক হতে পারে? কারণ (যেমন আনুমানিক P-মান হিসাবে) একটি অনুপাত স্যাম্পলিং বন্টন বাইনমিয়াল, এই অনিশ্চয়তা একটি সঙ্গে সুরাহা করা যেতে পারে বাইনমিয়াল আস্থা ব্যবধান ।
স্থাপত্য
একটি সুনির্দিষ্টভাবে বাস্তবায়িত হওয়া আলোচনাটি সমস্ত দিক থেকে নিবিড়ভাবে অনুসরণ করবে। এটি পরীক্ষার পরিসংখ্যান গণনা করার জন্য একটি রুটিন দিয়ে শুরু হবে, কারণ এটি দুটি গ্রুপের মাধ্যমের তুলনা করে:
diff.means <- function(control, treatment) mean(treatment) - mean(control)
ডেটাসেটের এলোমেলো ক্রম উত্পাদন তৈরি করতে এবং পরীক্ষার পরিসংখ্যান প্রয়োগ করতে অন্য একটি রুটিন লিখুন। এইটির ইন্টারফেসটি কলারটিকে আর্গুমেন্ট হিসাবে পরীক্ষার পরিসংখ্যান সরবরাহ করতে দেয়। এটি m
অ্যারের প্রথম উপাদানগুলিকে (একটি রেফারেন্স গ্রুপ হিসাবে ধরে নেওয়া হয়) অবশিষ্ট উপাদানগুলির ("চিকিত্সা" গোষ্ঠী) সাথে তুলনা করবে ।
f <- function(..., sample, m, statistic) {
s <- sample(sample)
statistic(s[1:m], s[-(1:m)])
}
বিন্যাস পরীক্ষা (এখানে অধিকৃত দুইটি অ্যারের সংরক্ষণ করা প্রকৃত ডেটার জন্য পরিসংখ্যাত খোঁজার প্রথম বাহিত হয় control
এবং treatment
) এবং তারপর অনেক স্বাধীন র্যান্ডম উহার একাধিক বিন্যাসন জন্য পরিসংখ্যান খোঁজার:
z <- stat(control, treatment) # Test statistic for the observed data
sim<- sapply(1:1e4, f, sample=c(control,treatment), m=length(control), statistic=diff.means)
এখন পি-মানটির দ্বিপদী হিসাব এবং এটির জন্য একটি আত্মবিশ্বাসের ব্যবধান গণনা করুন। একটি পদ্ধতি বিল্ট-ইন ব্যবহার binconf
পদ্ধতি HMisc
প্যাকেজ:
require(Hmisc) # Exports `binconf`
k <- sum(abs(sim) >= abs(z)) # Two-tailed test
zapsmall(binconf(k, length(sim), method='exact')) # 95% CI by default
ফলাফলটিকে অন্য পরীক্ষার সাথে তুলনা করা খারাপ ধারণা নয়, এমনকি যদি এটি যথেষ্ট প্রযোজ্য নয় বলে জানা যায়: কমপক্ষে আপনি ফলাফলটি কোথায় ফাঁসানো উচিত তার অর্ধবৃত্তির অর্ডার পেতে পারেন। এই উদাহরণে (তুলনার অর্থ), একজন শিক্ষার্থীর টি-টেস্ট সাধারণত যাইহোক ভাল ফলাফল দেয়:
t.test(treatment, control)
এই আর্কিটেকচারটি আরও জটিল পরিস্থিতিতে চিত্রিত হয় ওয়ার্কিং R
কোড সহ, ভেরিয়েবলগুলি একই বন্টন অনুসরণ করুন কিনা তা পরীক্ষায় ।
উদাহরণ
100201.5
set.seed(17)
control <- rnorm(10)
treatment <- rnorm(20, 1.5)
ক্রমুয়েশন পরীক্ষা চালানোর জন্য পূর্ববর্তী কোডটি ব্যবহার করার পরে আমি প্রকৃত পরিসংখ্যান চিহ্নিত করতে একটি উল্লম্ব লাল রেখার সাথে অনুপাতের বিতরণের নমুনা প্লট করেছি:
h <- hist(c(z, sim), plot=FALSE)
hist(sim, breaks=h$breaks)
abline(v = stat(control, treatment), col="Red")
দ্বিপদী আত্মবিশ্বাস সীমা গণনার ফলাফল হয়েছিল
PointEst Lower Upper
0 0 0.0003688199
অন্য কথায়, আনুমানিক পি-মানটি পর্যন্ত একটি (ডিফল্ট 95%) আত্মবিশ্বাসের ব্যবধানের সাথে ঠিক শূন্য ছিল00.00037 । ছাত্র টি-টেস্ট একটি পি-মান রিপোর্ট করে 3.16e-05
, যা এর সাথে সামঞ্জস্যপূর্ণ। এটি আমাদের আরও সংকীর্ণ বোঝার সমর্থন করে যে এই ক্ষেত্রে শূন্যের একটি অনুমানিত পি-মান খুব ছোট পি-মানের সাথে সামঞ্জস্য করে যা আমরা বৈধভাবে এর চেয়ে কম হতে পারি0,00037। সেই তথ্যটি যদিও অনিশ্চিত, সাধারণত হাইপোথিসিস পরীক্ষা সম্পর্কে একটি নির্দিষ্ট উপসংহার তৈরি করার পক্ষে যথেষ্ট (কারণ0,00037 এর সাধারণ প্রান্তিকের চেয়ে অনেক নিচে 0.05, 0.01, বা 0.001)।
মন্তব্য
কখন ট এর বাইরে এনঅনুক্রমের বিতরণের নমুনার মানগুলিকে উভয়ই "চরম" হিসাবে বিবেচনা করা হয় কে / এন এবং ( কে + 1 ) / ( এন+ 1 )সত্য পি-মানের যুক্তিসঙ্গত অনুমান। (অন্যান্য অনুমানগুলিও যুক্তিসঙ্গত।) সাধারণত একজনকে অপরটির চেয়ে পছন্দ করার সামান্য কারণ থাকে। যদি তারা বিভিন্ন সিদ্ধান্ত নিতে থাকে, তার মানেএনখুবই ছোট. যেভাবে পি-মান অনুমান করা হচ্ছে তাতে ফডিংয়ের পরিবর্তে ক্রমবর্ধমান বিতরণের বৃহত্তর নমুনা নিন।
যদি অনুমানের আরও বৃহত্তর নির্ভুলতা প্রয়োজন হয়, কেবলমাত্র আরও দীর্ঘতর জন্য পরীক্ষা পরীক্ষা চালান। কারণ আত্মবিশ্বাসের ব্যবধানের প্রস্থগুলি সাধারণত একটি নমুনার আকারের বর্গমূলের বিপরীতভাবে আনুপাতিকভাবে স্কেল করে, এর একটি উপাদান দ্বারা আস্থা অন্তর উন্নত করতে10 আমি দৌড়ে গেলাম 102= 100যতবার অনুমতি দেওয়া হয়েছে ততবার এবার আনুমানিক পি-মান ছিল0.000005 (ক্রমুয়েশন ফলাফলের পাঁচটি প্রকৃত পরিসংখ্যানের তুলনায় কমপক্ষে শূন্য থেকে দূরে ছিল) এর থেকে একটি আত্মবিশ্বাসের ব্যবধানে 1.6 মাধ্যম 11.7প্রতি মিলিয়ন অংশ: স্টুডেন্ট টি-টেস্টের তুলনায় কিছুটা ছোট। যদিও তথ্যটি সাধারণ এলোমেলো সংখ্যার জেনারেটর সহ তৈরি করা হয়েছিল, যা শিক্ষার্থীদের টি-টেস্ট ব্যবহার করে ন্যায্যতা জানায়, পারমিটেশন পরীক্ষার ফলাফল শিক্ষার্থীদের টি-পরীক্ষার ফলাফল থেকে পৃথক হয় কারণ পর্যবেক্ষণের প্রতিটি গ্রুপের মধ্যে বিতরণ পুরোপুরি স্বাভাবিক নয়।
a.random
b.random
b.random
a.random
coding
lncrna