এ / বি পরীক্ষার ফলাফলগুলি বিশ্লেষণ করে যা সাধারণভাবে বিতরণ করা হয় না, স্বতন্ত্র টি-পরীক্ষা ব্যবহার করে


14

আমার কাছে একটি এ / বি পরীক্ষার ফলাফলের একটি সেট রয়েছে (একটি নিয়ন্ত্রণ গ্রুপ, একটি বৈশিষ্ট্য গোষ্ঠী) যা কোনও সাধারণ বিতরণের উপযুক্ত নয়। প্রকৃতপক্ষে বিতরণটি ল্যান্ডাউ বিতরণের সাথে আরও সাদৃশ্যপূর্ণ।

আমি বিশ্বাস করি যে স্বাধীন টি-টেস্টের প্রয়োজন হয় যে নমুনাগুলি কমপক্ষে প্রায় সাধারণভাবে বিতরণ করা উচিত, যা আমাকে টি-টেস্টকে তাত্পর্য পরীক্ষার বৈধ পদ্ধতি হিসাবে ব্যবহার করে নিরুৎসাহিত করে।

তবে আমার প্রশ্নটি: কোন পর্যায়ে কেউ বলতে পারেন যে টি-টেস্টটি তাত্পর্য পরীক্ষা করার কোনও ভাল পদ্ধতি নয়?

বা অন্য কোনও উপায়ে বলা যায়, কেবলমাত্র কোনও ডেটা সেট দেওয়া হলে কীভাবে একজন টি-টেস্টের পি-মানগুলি নির্ভরযোগ্য হতে পারে?

উত্তর:


8

আপনার ডেটা বিতরণ স্বাভাবিক হওয়ার দরকার নেই, এটি স্যাম্পলিং বিতরণ যা প্রায় স্বাভাবিক হতে হবে। যদি আপনার নমুনার আকারটি যথেষ্ট পরিমাণে বড় হয় তবে কেন্দ্রীয় সীমিত উপপাদ্যের কারণে ল্যান্ডাউ বিতরণ থেকে অর্থের নমুনা বিতরণ প্রায় স্বাভাবিক হওয়া উচিত ।

সুতরাং এর অর্থ হ'ল আপনার ডেটা দিয়ে নিরাপদে টি-টেস্ট ব্যবহার করতে সক্ষম হওয়া উচিত।

উদাহরণ

আসুন এই উদাহরণটি বিবেচনা করুন: ধরুন আমাদের লগন্যমাল বন্টন মিউ = 0 এবং এসডি = 0.5 এর সাথে জনসংখ্যা রয়েছে (এটি ল্যান্ডোর সাথে কিছুটা মিল দেখাচ্ছে)

সাধারণ ঘনত্ব

সুতরাং আমরা প্রতিবার নমুনার গড় গণনা করে এই বিতরণ থেকে 5000 টি পর্যবেক্ষণ নমুনা করি

এবং এটি আমরা পাই

নমুনা বিতরণ

বেশ স্বাভাবিক দেখাচ্ছে, তাই না? আমরা যদি নমুনার আকার বাড়িয়ে তুলি তবে এটি আরও স্পষ্ট

নমুনা বিতরণ

আর কোড

x = seq(0, 4, 0.05)
y = dlnorm(x, mean=0, sd=0.5)
plot(x, y, type='l', bty='n')


n = 30
m = 1000

set.seed(0)
samp = rep(NA, m)

for (i in 1:m) {
  samp[i] = mean(rlnorm(n, mean=0, sd=0.5))
}

hist(samp, col='orange', probability=T, breaks=25, main='sample size = 30')
x = seq(0.5, 1.5, 0.01)
lines(x, dnorm(x, mean=mean(samp), sd=sd(samp)))


n = 300
samp = rep(NA, m)

for (i in 1:m) {
  samp[i] = mean(rlnorm(n, mean=0, sd=0.5))
}

hist(samp, col='orange', probability=T, breaks=25, main='sample size = 300')
x = seq(1, 1.25, 0.005)
lines(x, dnorm(x, mean=mean(samp), sd=sd(samp)))

হাই, আলেক্সি! দেখে মনে হচ্ছে আপনি আর তে দক্ষ, তাই আমি ভাবছি, আমি বর্তমানে আটকা পড়ে থাকা সমস্যার বিষয়ে আপনার যদি কোনও পরামর্শ থাকে তবে: stackoverflow.com/questions/25101444/… । এর বাইরে, আমি আপনার সাথে সংযুক্ত হতে পেরে খুশি হব (পেশাদার সামাজিক নেটওয়ার্কগুলিতে আমার প্রোফাইলগুলির জন্য aleksandrblekh.com দেখুন), কারণ মনে হচ্ছে আমাদের কিছু সাধারণ আগ্রহ রয়েছে (স্থানীয় ভাষা সহ :-)।
আলেকসান্দ্র ব্লেক

এটি দুর্দান্ত ব্যাখ্যা, এবং বাস্তবে আমি যে পদ্ধতিটি ব্যবহার করে শেষ করেছি। আমি এই পদ্ধতিটি সম্পূর্ণ নমুনা সেটটিকে ছোট ছোট উপ-নমুনায় বিভক্ত করা এবং ডেটা সেটের বন্টন হিসাবে প্রতিটি উপ-নমুনার মাধ্যম (সিএলটি সহ গড়) ব্যবহার করে ভাবিতে চাই। উত্তরের জন্য ধন্যবাদ!
teebzet

1

মূলত একটি দুটি টি নমুনার গড় উল্লেখযোগ্যভাবে পৃথক কিনা তা পরীক্ষা করতে একটি স্বতন্ত্র টি-টেস্ট বা একটি 2 টি নমুনা টি-পরীক্ষা ব্যবহার করা হয়। অথবা, অন্য কথায় বলতে গেলে, যদি দুটি নমুনার মাধ্যমের মধ্যে উল্লেখযোগ্য পার্থক্য থাকে।

এখন, এই 2 টি নমুনার মাধ্যম দুটি পরিসংখ্যান, যা সিএলটি অনুসারে, পর্যাপ্ত পরিমাণে নমুনা সরবরাহ করা হলে একটি সাধারণ বিতরণ থাকে। দ্রষ্টব্য যে সিএলটি যে পরিসংখ্যান থেকে গড় পরিসংখ্যানটি নির্মিত তা বিবেচনা করে না।

সাধারণত কেউ জেড-টেস্ট ব্যবহার করতে পারে, তবে যদি নমুনা থেকে বৈকল্পিকগুলি অনুমান করা হয় (কারণ এটি অজানা) তবে কিছু অতিরিক্ত অনিশ্চয়তা প্রবর্তিত হয়, যা টি বিতরণে অন্তর্ভুক্ত। এজন্য এখানে 2-নমুনা টি-পরীক্ষা প্রযোজ্য।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.