ঠিক আছে, মনে হচ্ছে আমি এটির একটি হ্যাশ তৈরি করেছি। আমাকে আবারও এটি ব্যাখ্যা করার চেষ্টা করুন, অন্যভাবে এবং আমরা দেখতে পাচ্ছি এটি কোনও জিনিস পরিষ্কার করতে সহায়তা করতে পারে।
ম্যাকনেমার পরীক্ষা বনাম চি-স্কোয়ার্ড টেস্টের ব্যাখ্যা দেওয়ার traditionalতিহ্যগত উপায়টি হল ডেটাটি "যুক্ত" করা হয়েছে কিনা তা জিজ্ঞাসা করা এবং ডেটাটি যুক্ত করা হয়েছে কিনা তা ম্যাকনেমার পরীক্ষার সুপারিশ করা এবং ডেটা "আনকিয়ারড" হলে চি-স্কোয়ার্ড টেস্টের পরামর্শ দেওয়া। আমি খুঁজে পেয়েছি যে এটি অনেকগুলি বিভ্রান্তির দিকে পরিচালিত করে (এই থ্রেডটি উদাহরণ হিসাবে!)। এর পরিবর্তে, আমি খুঁজে পেয়েছি যে আপনি যে প্রশ্নটি জিজ্ঞাসা করার চেষ্টা করছেন তার দিকে দৃষ্টি নিবদ্ধ করা এবং আপনার প্রশ্নের সাথে মেলে এমন পরীক্ষাটি ব্যবহার করা সবচেয়ে সহায়ক । এটি আরও কংক্রিট করতে, আসুন একটি মেক-আপ দৃশ্যের দিকে তাকান:
আপনি একটি পরিসংখ্যান সম্মেলন ঘুরে দেখেন এবং আপনি যে পরিসংখ্যানবিদদের সাথে মিলিত হন, আপনি মার্কিন যুক্তরাষ্ট্র বা যুক্তরাজ্য থেকে এসেছেন কিনা তা রেকর্ড করেন। তাদের উচ্চ রক্তচাপ বা স্বাভাবিক রক্তচাপ আছে কিনা তা আপনি রেকর্ডও করুন।
এখানে ডেটা:
mat = as.table(rbind(c(195, 5),
c( 5, 195) ))
colnames(mat) = c("US", "UK")
rownames(mat) = c("Hi", "Normal")
names(dimnames(mat)) = c("BP", "Nationality")
mat
# Nationality
# BP US UK
# Hi 195 5
# Normal 5 195
এই মুহুর্তে, আমরা কীভাবে আমাদের ডেটা জিজ্ঞাসা করতে চাই তা নির্ধারণ করা গুরুত্বপূর্ণ is আমরা এখানে তিনটি ভিন্ন প্রশ্ন জিজ্ঞাসা করতে পারি:
- আমরা জানতে যদি শ্রেণীগত ভেরিয়েবল চাইতে পারেন
BP
এবং Nationality
সংশ্লিষ্ট অথবা স্বাধীন হয়;
- আমরা ভাবতে পারি যে যুক্তরাষ্টের পরিসংখ্যানবিদদের তুলনায় মার্কিন পরিসংখ্যানবিদদের মধ্যে উচ্চ রক্তচাপ বেশি দেখা যায়;
পরিশেষে, আমরা ভাবতে পারি যে উচ্চ রক্তচাপের পরিসংখ্যানবিদদের অনুপাতটি আমরা যে মার্কিন পরিসংখ্যানবিদদের সাথে কথা বলেছি তার অনুপাতের সমান কিনা। এটি টেবিলের প্রান্তিক অনুপাতকে বোঝায়। এগুলি আর-তে ডিফল্টরূপে মুদ্রিত হয় না, তবে আমরা সেগুলি এগুলিতে পেতে পারি (লক্ষ্য করুন যে, এই ক্ষেত্রে তারা ঠিক একই রকম):
margin.table(mat, 1)/sum(mat)
# BP
# Hi Normal
# 0.5 0.5
margin.table(mat, 2)/sum(mat)
# Nationality
# US UK
# 0.5 0.5
যেমনটি আমি বলেছি, প্রচলিত পাঠ্যপুস্তকগুলিতে আলোচিত traditionalতিহ্যবাহী পদ্ধতিটি ডেটা "যুক্ত" হয়েছে কিনা তার ভিত্তিতে কোন পরীক্ষাটি ব্যবহার করতে হবে তা নির্ধারণ করা। তবে এটি খুব বিভ্রান্তিকর, এই কন্টিনজেন্সি টেবিলটি কি "যুক্ত"? যদি আমরা মার্কিন যুক্তরাষ্ট্রে এবং যুক্তরাজ্যের পরিসংখ্যানবিদদের মধ্যে উচ্চ রক্তচাপের সাথে অনুপাতের তুলনা করি, আপনি বিভিন্ন সংখ্যক লোকের সাথে পরিমাপ করা দুটি অনুপাত (একই পরিবর্তনশীল হওয়া সত্ত্বেও) তুলনা করছেন। অন্যদিকে, আপনি যদি উচ্চ রক্তচাপের সাথে অনুপাতটিকে মার্কিন অনুপাতের সাথে তুলনা করতে চান, আপনি একই সংখ্যক লোকের সাথে পরিমাপকৃত দুটি অনুপাত (বিভিন্ন পরিবর্তনশীল হওয়া সত্ত্বেও) তুলনা করছেন। এই তথ্য উভয়"যুক্ত" এবং "অযথিত" একই সাথে (তথ্যের বিভিন্ন দিক বিবেচনা করেও)। এটি বিভ্রান্তির দিকে নিয়ে যায়। এই বিভ্রান্তি এড়াতে চেষ্টা করার জন্য, আমি যুক্তি দিচ্ছি যে আপনি কোন প্রশ্ন জিজ্ঞাসা করছেন তার দিক দিয়ে আপনার ভাবা উচিত। বিশেষত, যদি আপনি জানতে চান:
- যদি ভেরিয়েবলগুলি স্বতন্ত্র থাকে: চি-স্কোয়ার্ড পরীক্ষাটি ব্যবহার করুন।
- যদি উচ্চ রক্তচাপের অনুপাত জাতীয়তার সাথে আলাদা হয়: অনুপাতের পার্থক্যের জন্য জেড-পরীক্ষা ব্যবহার করুন।
- যদি প্রান্তিক অনুপাত একই হয়: ম্যাকনেমার পরীক্ষা ব্যবহার করুন।
কেউ এখানে আমার সাথে একমত হতে পারেন, যুক্তি দিয়েছিলেন যে কন্টিনজেন্সি টেবিলটি "যুক্ত" করা হয়নি, তাই ম্যাকনামারের পরীক্ষাটি প্রান্তিক অনুপাতের সাম্যতা পরীক্ষা করতে ব্যবহার করা যাবে না এবং পরিবর্তে চি-স্কোয়ার্ড টেস্ট ব্যবহার করা উচিত। যেহেতু এটি বিতর্কের কেন্দ্রবিন্দু, তাই ফলাফলগুলি অর্থবোধ করে কিনা তা উভয়কেই দেখার চেষ্টা করুন:
chisq.test(mat)
# Pearson's Chi-squared test with Yates' continuity correction
#
# data: mat
# X-squared = 357.21, df = 1, p-value < 2.2e-16
mcnemar.test(mat)
# McNemar's Chi-squared test
#
# data: mat
# McNemar's chi-squared = 0, df = 1, p-value = 1
50 % = 50 % চি-স্কোয়ার পরীক্ষার ফলাফলগুলি কেবলমাত্র তথ্যের আলোকে কোনও অর্থ দেয় না। অন্যদিকে, ম্যাকনামারের পরীক্ষার পি-মান 1 পাওয়া যায়। এটি বলছে যে যদি সত্যিকারের প্রান্তিক অনুপাত সমান হয় তবে সাম্যতার কাছাকাছি বা সমতা থেকে আরও দূরে প্রান্তিক অনুপাত খুঁজে পাওয়ার আপনার 100% সম্ভাবনা থাকবে। যেহেতু পর্যবেক্ষিত প্রান্তিক অনুপাতগুলি তাদের তুলনায় সমান কাছাকাছি হতে পারে না, এই ফলাফলটি বোঝা যায়।
আসুন আরেকটি উদাহরণ চেষ্টা করুন:
mat2 = as.table(rbind(c(195, 195),
c( 5, 5) ))
colnames(mat2) = c("US", "UK")
rownames(mat2) = c("Hi", "Normal")
names(dimnames(mat2)) = c("BP", "Nationality")
mat2
# Nationality
# BP US UK
# Hi 195 195
# Normal 5 5
margin.table(mat2, 1)/sum(mat2)
# BP
# Hi Normal
# 0.975 0.025
margin.table(mat2, 2)/sum(mat2)
# Nationality
# US UK
# 0.5 0.5
97.5 % ≫ 50 %
chisq.test(mat2)
# Pearson's Chi-squared test
#
# data: mat2
# X-squared = 0, df = 1, p-value = 1
mcnemar.test(mat2)
# McNemar's Chi-squared test with continuity correction
#
# data: mat2
# McNemar's chi-squared = 178.605, df = 1, p-value < 2.2e-16
এবার, চি-স্কোয়ার্ড পরীক্ষাটি 1 এর একটি পি-মান দেয়, যার অর্থ প্রান্তিক অনুপাতটি তাদের সমান হয়। তবে আমরা দেখেছি যে প্রান্তিক অনুপাত খুব স্পষ্টতই সমান নয়, সুতরাং এই ফলাফলটি আমাদের তথ্যের আলোকে কোনও অর্থ দেয় না। অন্যদিকে, ম্যাকনামারের পরীক্ষায় পি-মান প্রায় পাওয়া যায় other অন্য কথায়, যদি তারা জনসংখ্যায় সত্যই সমান হয় তবে এগুলি সমতা থেকে দূরে প্রান্তিক অনুপাত সহ তথ্য প্রাপ্তির পক্ষে অত্যন্ত সম্ভাবনা নেই। যেহেতু আমাদের পর্যবেক্ষণ প্রান্তিক অনুপাত সমান থেকে অনেক দূরে, তাই এই ফলাফলটি বোঝা যায়।
আমাদের চিটা স্কোয়ার্ড টেস্টের ফলাফল ফল দেয় যা আমাদের উপাত্ত প্রদত্ত বলে বোঝায় না যে এখানে চি-স্কোয়ার পরীক্ষার সাথে কিছু ভুল আছে। অবশ্যই, ম্যাকনামারের পরীক্ষায় বুদ্ধিমান ফলাফল সরবরাহ করা সত্য যে এটি বৈধ বলে প্রমাণিত করে না, এটি কেবল একটি কাকতালীয় ঘটনা হতে পারে তবে চি-স্কোয়ার্ড পরীক্ষাটি স্পষ্টতই ভুল।
আসুন আমরা ম্যাকনামারের পরীক্ষা কেন সঠিক হতে পারে তার পক্ষে যুক্তির মাধ্যমে কাজ করতে পারি কিনা তা দেখুন see আমি তৃতীয় ডেটাসেট ব্যবহার করব:
mat3 = as.table(rbind(c(190, 15),
c( 60, 135) ))
colnames(mat3) = c("US", "UK")
rownames(mat3) = c("Hi", "Normal")
names(dimnames(mat3)) = c("BP", "Nationality")
mat3
# Nationality
# BP US UK
# Hi 190 15
# Normal 60 135
margin.table(mat3, 1)/sum(mat3)
# BP
# Hi Normal
# 0.5125 0.4875
margin.table(mat3, 2)/sum(mat3)
# Nationality
# US UK
# 0.625 0.375
51.25 %62.5 %
prop.test(x=c(205, 250), n=c(400, 400))
# 2-sample test for equality of proportions with continuity correction
#
# data: c(205, 250) out of c(400, 400)
# X-squared = 9.8665, df = 1, p-value = 0.001683
# alternative hypothesis: two.sided
# 95 percent confidence interval:
# -0.18319286 -0.04180714
# sample estimates:
# prop 1 prop 2
# 0.5125 0.6250
( prop.test()
প্রান্তিক অনুপাত পরীক্ষা করার জন্য , আমাকে 'সাফল্য' এবং মোট 'পরীক্ষার সংখ্যা' ম্যানুয়ালি লিখতে হয়েছিল, তবে আপনি আউটপুটের শেষ লাইন থেকে দেখতে পাচ্ছেন যে অনুপাতগুলি সঠিক)) আমাদের কাছে থাকা পরিমাণের পরিমাণের পরিমাণের তুলনায় যদি তারা আসলে সমান হয় তবে সাম্যতা থেকে এ পর্যন্ত প্রান্তিক অনুপাত পাওয়া সম্ভব নয়।
এই পরীক্ষাটি কি বৈধ? এখানে দুটি সমস্যা রয়েছে: পরীক্ষাটি বিশ্বাস করে যে আমাদের কাছে 800 টি তথ্য রয়েছে, যখন আমাদের কাছে কেবলমাত্র 400 থাকে This
% উচ্চ বিপি: 190 + 15400% মার্কিন: 190 + 60400
1904001560π= .5নাল অধীন। এটাই ছিল ম্যাকনামারের অন্তর্দৃষ্টি। প্রকৃতপক্ষে, ম্যাকনামারের পরীক্ষা মূলত কেবলমাত্র দ্বিপাক্ষিক পরীক্ষা যা পর্যবেক্ষণগুলি সেই দুটি কোষের মধ্যে সমানভাবে পড়ার সম্ভাবনা রয়েছে কিনা:
binom.test(x=15, n=(15+60))
# Exact binomial test
#
# data: 15 and (15 + 60)
# number of successes = 15, number of trials = 75, p-value = 1.588e-07
# alternative hypothesis: true probability of success is not equal to 0.5
# 95 percent confidence interval:
# 0.1164821 0.3083261
# sample estimates:
# probability of success
# 0.2
এই সংস্করণে, শুধুমাত্র তথ্যমূলক পর্যবেক্ষণগুলি ব্যবহার করা হয় এবং সেগুলি দুটিবার গণনা করা হয় না। এখানে পি-মানটি খুব ছোট, 0.0000001588, যা প্রায়শই এমন হয় যখন ডেটা নির্ভরতা বিবেচনায় নেওয়া হয়। অর্থাৎ অনুপাতের পার্থক্যের জেড-টেস্টের চেয়ে এই পরীক্ষাটি আরও শক্তিশালী। আমরা আরও দেখতে পারি যে উপরের সংস্করণটি মূলত ম্যাকনামারের পরীক্ষার মতোই:
mcnemar.test(mat3, correct=FALSE)
# McNemar's Chi-squared test
#
# data: mat3
# McNemar's chi-squared = 27, df = 1, p-value = 2.035e-07
অ-অভিন্নতা যদি বিভ্রান্তিকর হয় তবে ম্যাকনামারের পরীক্ষাটি সাধারণত এবং আর-তে ফলাফলকে স্কোয়ার করে এবং চি-স্কোয়ার ডিস্ট্রিবিউশনের সাথে তুলনা করে, যা উপরের দ্বিপদী হিসাবে সঠিক পরীক্ষা নয়:
(15-60)^2/(15+60)
# [1] 27
1-pchisq(27, df=1)
# [1] 2.034555e-07
সুতরাং, যখন আপনি কোনও কন্টিনজেন্সি টেবিলের প্রান্তিক অনুপাত সমান হয় তা পরীক্ষা করতে চান, ম্যাকনামারের পরীক্ষা (বা সঠিকভাবে দ্বিপদী পরীক্ষার ম্যানুয়ালি গণনা করা) সঠিক। এটি অবৈধভাবে কোনও তথ্য দুবার ব্যবহার না করে কেবলমাত্র সম্পর্কিত তথ্য ব্যবহার করে। এটি কেবল ফলাফল ঘটায় 'ঘটতে পারে না' যা ডেটা বোঝায়।
আমি বিশ্বাস করেই চলেছি যে, কোনও কন্টিনজেন্সি টেবিল "জোড়" রয়েছে কিনা তা বের করার চেষ্টা করা অসফল lp আমি পরীক্ষাটি ব্যবহার করার পরামর্শ দিচ্ছি যা আপনি ডেটা জিজ্ঞাসা করছেন এমন প্রশ্নের সাথে মেলে।