দুটি দ্বিপদী বিতরণ একে অপরের থেকে পরিসংখ্যানগতভাবে পৃথক কিনা তা পরীক্ষা করুন


37

আমার কাছে তিনটি গ্রুপের ডেটা রয়েছে, প্রত্যেকটির দ্বি-দ্বি বিতরণ (যেমন প্রতিটি গ্রুপে এমন উপাদান রয়েছে যা হয় সাফল্য বা ব্যর্থতা)। আমার সাফল্যের পূর্বাভাস সম্ভাবনা নেই তবে এর পরিবর্তে সত্যিকারের সাফল্যের হারের প্রতীক হিসাবে কেবলমাত্র প্রতিটিটির সাফল্যের হারের উপর নির্ভর করতে পারি। আমি কেবল এই প্রশ্নটি পেয়েছি , যা নিকটবর্তী তবে এই দৃশ্যের সাথে হুবহু মিল রয়েছে বলে মনে হয় না।

পরীক্ষাটি সহজ করার জন্য, কেবলমাত্র আমি বলতে পারি যে আমার 2 টি গ্রুপ রয়েছে (3 এই বেস কেস থেকে বাড়ানো যেতে পারে)।

  • গ্রুপ 1 ট্রায়াল: = 2455n1
  • গ্রুপ 2 ট্রায়াল: = 2730 30n2

  • গ্রুপ 1 সাফল্য: = 1556k1
  • গ্রুপ 2 সাফল্য: = 1671k2

আমার কাছে প্রত্যাশিত সাফল্যের সম্ভাবনা নেই, আমি কেবল নমুনাগুলি থেকে জানি। সুতরাং দুটি গ্রুপের জন্য আমার সূচিত সাফল্যের হার হ'ল:

  • গোষ্ঠী 1 সাফল্যের হার: = 1556/2455 = 63.4%p1
  • গোষ্ঠী 2 সাফল্যের হার: = 1671/2730 = 61.2%p2

নমুনার প্রতিটি সাফল্যের হার মোটামুটি কাছাকাছি। তবে আমার নমুনার আকারগুলিও বেশ বড়। আমি যদি দ্বি-দ্বি বিতরণের সিডিএফ পরীক্ষা করে দেখি যে এটি প্রথমের চেয়ে কতটা আলাদা (যেখানে আমি প্রথমটি নাল পরীক্ষা বলে ধরে নিচ্ছি) আমি খুব ছোট সম্ভাবনা পেয়েছি যে দ্বিতীয়টি অর্জন করা যায়।

এক্সেলে:

1-বিনম.আইডিএসটি (1556,2455,61.2%, সত্য) = 0.012

যাইহোক, এটি প্রথম ফলাফলের কোনও বৈকল্পিকতা বিবেচনায় নেয় না, এটি কেবল প্রথম ফলাফলটি পরীক্ষার সম্ভাবনা বলে ধরে নেয়।

যদি তথ্যের এই দুটি নমুনা আসলে পরিসংখ্যানগতভাবে একে অপরের থেকে পৃথক হয় তবে পরীক্ষার আরও ভাল উপায় কি হতে পারে?


আমি আর একটি প্রশ্ন এসেছি যা সত্যই তেমন কিছু করতে পারেনি
স্কট

এই প্রশ্ন সাহায্য করে? stats.stackexchange.com/questions/25299/…
এরিক

2
আর, আপনি ব্যবহার করতে পারে prop.test: prop.test(c(1556, 1671), c(2455, 2730))
COOLSerdash

1
দ্বি-নমুনা (দ্বিপদী) অনুপাত পরীক্ষা বা 2x2 চি-বর্গ হিসাবে করা যেতে পারে
Glen_b

1
বেস কেস দুটি গ্রুপ থেকে তিনটে বাড়ানো সমস্যাযুক্ত হতে পারে, কারণ পরীক্ষাগুলি পরস্পর নির্ভরশীল: এটি পরিচালনা করার জন্য আপনার এএনওওএর দ্বিপদী সংস্করণ প্রয়োজন হবে।
whuber

উত্তর:


36

সমাধানটি একটি সরল গুগল দূরে: http://en.wikedia.org/wiki/Statistical_hypothesis_testing

সুতরাং আপনি প্রদত্ত বিকল্পের বিরুদ্ধে নিম্নলিখিত নাল অনুমানটি পরীক্ষা করতে চান

বনাম এইচ : পি 1পি 2এইচ0:পি1=পি2এইচএকজন:পি1পি2

সুতরাং আপনাকে কেবল পরীক্ষার পরিসংখ্যানটি গণনা করতে হবে যা

z- র=পি^1-পি^2পি^(1-পি^)(1এন1+ +1এন2)

যেখানে P = 1 P 1 + + N 2 পি 2পি^=এন1পি^1+ +এন2পি^2এন1+ +এন2

তাই এখন, আপনার পি 1 = .634 , পি 2 = .612 , এন 1 = 2455 এবং এন 2 = 2730।পি^1=.634পি^2=.612এন1=2455এন2=2730।

একবার আপনি পরীক্ষার পরিসংখ্যান গণনা করার পরে, আপনার পরীক্ষার পরিসংখ্যানের তুলনা করার জন্য আপনাকে কেবলমাত্র সমালোচনামূলক অঞ্চলের মান গণনা করতে হবে। উদাহরণস্বরূপ, যদি আপনি 95% আস্থা পর্যায়ে এই হাইপোথিসিস পরীক্ষা তাহলে সমালোচনা অঞ্চল মান বিরুদ্ধে আপনার পরীক্ষার পরিসংখ্যান তুলনা প্রয়োজন (এই দুই লেজ গুটাইয়া পলাইয়া পরীক্ষার জন্য)।z- রα/2=1.96

এখন, যদি তবে আপনি নাল অনুমানটি বাতিল করতে পারেন, অন্যথায় আপনাকে নাল অনুমানটি বাতিল করতে হবে। z- র>z- রα/2

ভাল আপনি যখন দুটি গ্রুপের তুলনা করছেন তখন এই সমাধানটি সেই ক্ষেত্রে কাজ করে তবে আপনি 3 টি দলের তুলনা করতে চান এমন ক্ষেত্রে এটি সাধারণ হয় না।

যাইহোক আপনি উপরের মন্তব্যে @ এরিকের পরামর্শ অনুসারে তিনটি দলের সমান অনুপাত রয়েছে কিনা তা পরীক্ষা করার জন্য আপনি চি স্কোয়ার্ড পরীক্ষাটি ব্যবহার করতে পারেন: "এই প্রশ্নটি কী সহায়তা করে? Stats.stackexchange.com/questions/25299/… - এরিক"


6
ধন্যবাদ @ ড্যান গুগলের সাথে যতবার, অনুসন্ধান করার সঠিক শব্দটি জানা প্রথম বাধা। আমি চ-স্কোয়ার পরীক্ষাটি একবার দেখেছি। সেখানে সমস্যা, যেখানে আমি প্রথম আটকে যাচ্ছিলাম, তা হ'ল আমার প্রত্যাশিত গণনাটি নমুনার উপর ভিত্তি করে। তাই আমি প্রত্যাশিত মান সরবরাহ করতে পারি না, কারণ আমার নমুনাগুলি সেই প্রত্যাশিত মানটি নির্ধারণ করতে ব্যবহৃত হয়।
স্কট 18

@ স্কট, যদি তিনটি দলের জন্য আপনার অনুমানযুক্ত অনুপাতগুলি হয় যে তারা সমস্ত সমান হয় তবে প্রত্যাশার মান প্রতিটি দলের জন্য 1/3 হওয়া উচিত।
ড্যান

1
এই পরীক্ষাটি ব্যবহারের সম্পর্কিত সম্পর্কিত ব্যাখ্যা এখানে পাওয়া যাবে: itl.nist.gov/div898/handbook/prc/section3/prc33.htm (বর্তমানে, উইকিপিডিয়া পৃষ্ঠাটি ওয়াক- থ্রো উদাহরণ প্রদান করে না)।
wwwilliam

কেউ আমাকে দ্বিপদী বিতরণের মধ্যে পার্থক্যটির আদর্শ বিচ্যুতি প্রমাণ করতে সহায়তা করতে পারে, অন্য কথায় প্রমাণ করতে পারে:
পি^(1-পি^)(1এন1+ +1এন2)=পি^1(1-পি^1)এন1+ +পি^2(1-পি^2)এন2
ট্যাঙ্গুয়ে

আমার প্রশ্নের উত্তরটি এখানে পাওয়া যাবে: stats.stackexchange.com/questions/361015/…
টাঙ্গুয়

10

আর-তে উত্তর গণনা করা হয়:

fisher.test(rbind(c(1556,2455-1556), c(1671,2730-1671)), alternative="less")

8
আপনি আর ফাংশনটি সরবরাহ করার চেয়ে লেখাকে একটু বেশি বিবেচনা করবেন? ফাংশনটির নামকরণ সমস্যাটি বোঝার ক্ষেত্রে সহায়তা করে না এবং সবাই আর ব্যবহার করে না, সুতরাং এটি তাদের পক্ষে কোনও সহায়ক হবে না।
টিম

1
এটি সর্বাধিক নির্ভুল পরিসংখ্যানের উত্তর, এবং অল্প সংখ্যক পর্যবেক্ষণের জন্য কাজ করে (নিম্নলিখিতটি দেখুন: itl.nist.gov/div898/handbook/prc/section3/prc33.htm )।
অ্যান্ড্রু মাও

Fishers, সঠিক পরীক্ষা en.wikipedia.org/wiki/Fisher's_exact_test
কিথ

3

কেবল একটি সংক্ষিপ্তসার:

ড্যান এবং আবাউমানের উত্তরগুলি দ্বিপদী মডেলের অধীনে পরীক্ষা করার পরামর্শ দেয় যেখানে নাল অনুমানটি একীভূত একক দ্বিপদী মডেল যার অনুভূতিগত উপাত্তগুলি থেকে অনুমান করা হয়। তাদের উত্তর তত্ত্বে সঠিক তবে পরীক্ষার পরিসংখ্যান বিতরণ সাধারণ বিতরণকে সঠিকভাবে অনুসরণ করে না বলে তাদের সাধারণ বিতরণ ব্যবহার করে আনুমানিকতা প্রয়োজন। সুতরাং, এটি একটি বৃহত নমুনার আকারের জন্য সঠিক correct

কিন্তু ডেভিড এর উত্তর ফিশার এর test.The তথ্য ব্যবহার করে কোন nonparametric পরীক্ষা ইঙ্গিত করা হয় এখানে: https://en.wikipedia.org/wiki/Fisher%27s_exact_test এবং এটা বড় নমুনা মাপ জন্য গণনা করা হবে ছোট নমুনা মাপ প্রয়োগ করা যেতে পারে কিন্তু কঠিন।

কোন পরীক্ষাটি ব্যবহার করতে হবে এবং আপনি আপনার পি-ভ্যালুতে কতটা বিশ্বাস করেন তা রহস্য। তবে যে কোনও পরীক্ষায় নির্বাচন করার ক্ষেত্রে বায়াস সবসময়ই থাকে।


2
1/2

1
এই ক্ষেত্রে, আমি মনে করি আপনি ড্যানের পদ্ধতিটি ব্যবহার করতে পারেন তবে পি মানটি সঠিক উপায়ে (দ্বিপদী) এবং আনুমানিক উপায়ে গণনা করতে পারেন (সাধারণ জেড> Φ − 1 (1 − / α / 2) জেড> Φ − 1 (1 − − / / 2) এবং জেড <Φ − 1 (α / 2)) তারা পর্যাপ্ত পর্যায়ে কিনা তা তুলনা করতে।
ডাঃহোপ

1

জেড=পি1^-পি2^পি^(1-পি^)(1/এন1+ +1/এন2)পি^=এন1পি1^+ +এন2পি2^এন1+ +এন2

জেড>Φ-1(1-α/2)জেড<Φ-1(α/2)


1

পাইথনে, স্ট্যাটাসমডেলের একটি ফাংশন বলা হয় proportions_ztest। এখানে এর ব্যবহারের একটি উদাহরণ রয়েছে:

import statsmodels.api as sm
import numpy as np
import rpy2.robjects.packages as rpackages
import rpy2.robjects as robjects
rstats = rpackages.importr('stats')

s1 = 1556
n1 = 2455

s2 = 1671
n2 = 2730

# manual calculation
p1 = s1 / n1
p2 = s2 / n2
p = (s1 + s2) / (n1 + n2)

z = (p1 - p2) / (p*(1-p)*((1/n1)+(1/n2)))**0.5

# using R in Python with rpy2
rmatrix = robjects.r.matrix(robjects.IntVector([s1, n1-s1, s2,n2-s2]), nrow=2)
fisher_test = rstats.fisher_test(rmatrix, alternative="two.sided")

zscore, pval = sm.stats.proportions_ztest([s1, s2], [n1, n2], alternative='two-sided')

print('Manual calculation of z: {:.6f}'.format(z))
print('Z-score from statsmodels: {:.6f}'.format(zscore))
print('R pvalue from fisher.test: {:.6f}'.format(fisher_test[0][0]))
print('Statsmodels pvalue: {:.6f}'.format(pval))

এটি মুদ্রণ করে:

Manual calculation of z: 1.610825
Z-score from statsmodels: 1.610825
R pvalue from fisher.test: 0.108268
Statsmodels pvalue: 0.107218

-1

মূল পোস্ট: ড্যানের উত্তরটি আসলে ভুল, কাউকে আপত্তি জানাতে নয়। আপনার ডেটা কোনও মানক সাধারণ বিতরণ অনুসরণ করে তবেই একটি জেড-পরীক্ষা ব্যবহার করা হয়। এই ক্ষেত্রে, আপনার ডেটা দ্বিপদী বিতরণ অনুসরণ করে, অতএব আপনার নমুনা বড় হলে চি-স্কোয়ার্ড পরীক্ষা ব্যবহার করুন বা যদি আপনার নমুনা ছোট হয় তবে ফিশারের পরীক্ষা করুন।

সম্পাদনা: আমার ভুল, @ ড্যানের কাছে ক্ষমা যদি আপনার ভেরিয়েবলগুলি স্বতন্ত্র থাকে তবে একটি জেড-পরীক্ষা এখানে বৈধ। যদি এই অনুমানটি পূরণ না হয় বা অজানা হয় তবে একটি জেড-পরীক্ষা অবৈধ হতে পারে।


2
χ2

আপনি যদি সিএলটি-তে বিশ্বাস করেন, তবে সাধারণ বিতরণ সাধারণত উপস্থিত থাকে।
রায়ান

2
@ রায়ান ওয়েল, আমি সিএলটি-তে বিশ্বাস করি তবে এটি এন = 30 বা এন = 300 বা এন = 5000 সম্পর্কে কিছুই বলে না। আপনি যদি না কোনওভাবে অসীম নমুনার আকারের ব্যবস্থা না করেন বা আপনি কোনওভাবে স্বাভাবিকতা দিয়ে শুরু না করেন তবে আপনি আসলে স্বাভাবিকতা পাবেন না। গড়পড়তা গ্রহণের সময় আমরা স্বাভাবিকতার কতটা কাছাকাছি রয়েছে সে সম্পর্কে প্রশ্নগুলি সিএলটি দ্বারা চিহ্নিত করা হয় না .. (আমরা এই প্রশ্নগুলি বিবেচনা করতে পারি তবে অনুমানের কোনও ভাল কিনা তা জানতে আমরা সিএলটি ব্যবহার করি না।)
গ্লেন_বি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.