দ্বি দ্বিবিশ্বের আত্মবিশ্বাসের ব্যবধানের অনুমান - কেন এটি প্রতিসম নয়?


30

বাইনোমিয়াল অনুপাতের আস্থা অন্তরগুলি অনুমান করার জন্য আমি নীচের আর কোডটি ব্যবহার করেছি কারণ আমি বুঝতে পারি যে কোনও জনসংখ্যার রোগ সনাক্তকরণের দিকে তাকিয়ে রিসিভার অপারেটিং বৈশিষ্ট্যযুক্ত কার্ভ ডিজাইনের ডিজাইনের সময় একটি "পাওয়ার গণনা" এর বিকল্প হয়।

n 150, এবং আমাদের বিশ্বাস, রোগটি 25% জনসংখ্যার মধ্যে রয়েছে। আমি 75% সংবেদনশীলতা এবং 90% নির্দিষ্টতার জন্য মানগুলি গণনা করেছি (কারণ এটি লোকেরা মনে হয়)।

    binom.test(c(29,9), p=0.75, alternative=c("t"), conf.level=0.95)

    binom.test(c(100, 12), p=0.90, alternative=c("t"), conf.level=0.95)

আমি এই সাইটটিও পরিদর্শন করেছি:

http://statpages.org/confint.html

কোন জাভা পৃষ্ঠা যা দ্বিপদী আত্মবিশ্বাসের অন্তরগুলি গণনা করে এবং এটি একই উত্তর দেয়।

যাইহোক, দীর্ঘতর সেট আপের পরে, আমি জিজ্ঞাসা করতে চাই কেন আত্মবিশ্বাসের অন্তরগুলি প্রতিসাম্য নয়, যেমন সংবেদনশীলতা

   95 percent confidence interval:
   0.5975876 0.8855583 

   sample estimate probability: 0.7631579 

দুঃখিত যদি এটি একটি মূ .় প্রশ্ন, তবে আমি যেখানেই দেখছি তারা প্রস্তাবিত বলে মনে হচ্ছে যে তারা প্রতিসাম্যিক হবে, এবং আমার এক সহকর্মী মনে হয় যে তারাও হবেন।

উত্তর:


20

এগুলিকে প্রতিসাম্য হিসাবে বিশ্বাস করা হয় কারণ প্রায়শই প্রায়শই প্রায় সাধারণ ব্যবহার হয়। এই এক পি প্রায় 0.5 এর ক্ষেত্রে যথেষ্ট ভাল কাজ করে। binom.testঅন্যদিকে "সঠিক" ক্লোপার-পিয়ারসন অন্তরগুলি প্রতিবেদন করে যা এফ বিতরণের উপর ভিত্তি করে ( উভয় পদ্ধতির সঠিক সূত্রের জন্য এখানে দেখুন )। আমরা যদি ক্লোপার-পিয়ারসন ব্যবধানটি আর-এ প্রয়োগ করি তবে এটি এমন কিছু হবে ( দ্রষ্টব্য দেখুন ):

Clopper.Pearson <- function(x, n, conf.level){
    alpha <- (1 - conf.level) / 2
    QF.l <- qf(1 - alpha, 2*n - 2*x + 2, 2*x)
    QF.u <- qf(1 - alpha, 2*x + 2, 2*n - 2*x)

    ll <- if (x == 0){
          0
    } else { x / ( x + (n-x+1)*QF.l ) }

    uu <- if (x == 0){
          0
    } else { (x+1)*QF.u / ( n - x + (x+1)*QF.u ) }

    return(c(ll, uu))
}

আপনি লিঙ্কে এবং প্রয়োগে উভয়ই দেখতে পান যে উপরের এবং নিম্ন সীমাটির সূত্রটি সম্পূর্ণ আলাদা। একটি প্রতিসাম্য আত্মবিশ্বাসের ব্যবধানের একমাত্র ক্ষেত্রে যখন পি = 0.5 থাকে। লিঙ্কটি থেকে সূত্রগুলি ব্যবহার করে এবং অ্যাকাউন্টে নেওয়া এই ক্ষেত্রে এটি কীভাবে আসে তা নিজেকে আবিষ্কার করা সহজ।n=2×x

আমি ব্যক্তিগতভাবে এটি একটি লজিস্টিক পদ্ধতির উপর ভিত্তি করে আত্মবিশ্বাসের ব্যবধানগুলি ভালভাবে বুঝতে পেরেছি। দ্বিপদী তথ্য সাধারণত লগইট লিঙ্ক ফাংশনটি ব্যবহার করে মডেল করা হয়, এটি সংজ্ঞায়িত করা হয়:

logit(x)=log(x1x)

এই লিঙ্কটি একটি সাধারণ বিতরণে লজিস্টিক রিগ্রেশনে ত্রুটি শব্দটি "মানচিত্র" ফাংশন করে। ফলস্বরূপ, লজিস্টিক কাঠামোর আত্মবিশ্বাসের ব্যবধানগুলি লজিট মানগুলির চারপাশে প্রতিসম হয়, অনেকটা ক্লাসিক লিনিয়ার রিগ্রেশন ফ্রেমওয়ার্কের মতো। লিনিট ট্রান্সফর্মেশনটি লিনিয়ার রিগ্রেশন-এর চারপাশে পুরো স্বাভাবিকতা-ভিত্তিক তত্ত্বটি ব্যবহারের জন্য যথাযথভাবে ব্যবহৃত হয়।

বিপরীত রূপান্তর করার পরে:

logit1(x)=ex1+ex

আপনি আবার একটি অসম্পূর্ণ ব্যবধান পান। এখন এই আত্মবিশ্বাসের অন্তরগুলি আসলে পক্ষপাতদুষ্ট। তাদের কভারেজটি আপনি যা আশা করবেন তা নয়, বিশেষত দ্বিপদী বিতরণের সীমানায়। তবুও, একটি দৃষ্টান্ত হিসাবে তারা আপনাকে দেখায় যে দ্বি-দ্বি বিতরণে অসামান্য আত্মবিশ্বাসের অন্তর রয়েছে log

আর এর একটি উদাহরণ:

logit <- function(x){ log(x/(1-x)) }
inv.logit <- function(x){ exp(x)/(1+exp(x)) }
x <- c(0.2, 0.5, 0.8)
lx <- logit(x)
upper <- lx + 2
lower <- lx - 2

logxtab <- cbind(lx, upper, lower)
logxtab # the confidence intervals are symmetric by construction
xtab <- inv.logit(logxtab)
xtab # back transformation gives asymmetric confidence intervals

দ্রষ্টব্য : আসলে, আর বিটা বিতরণ ব্যবহার করে তবে এটি সম্পূর্ণ সমতুল্য এবং গণনাগতভাবে কিছুটা দক্ষ। আর-তে বাস্তবায়ন আমি এখানে দেখানো থেকে পৃথক, তবে এটি ঠিক একই ফলাফল দেয় result


2
আপনি কি সত্যিই বলতে চাইছেন যে লগইট "দ্বিপদী বিতরণকে একটি সাধারণ বিতরণে রূপান্তরিত করে" ??
whuber

@ শুভ: সূত্রটির দুর্দান্ত ধরা এবং সূত্রটির দুর্দান্ত ধরা catch বেশ কিছু না। এটি নিশ্চিত করে যে একটি লজিস্টিক রিগ্রেশনের ত্রুটিগুলি সাধারণ বিতরণকে অনুসরণ করে। সংশোধনের জন্য Thx।
জোরিস মেয়েস

কেবল একটি সংক্ষিপ্ত প্রযুক্তিগত নোট, "আরকসিন" রূপান্তরটি হ'ল লজিস্টিক ট্রান্সফর্মেশনের চেয়ে স্বাভাবিকের দিকে দ্রুত অভিব্যক্তি। সেট (যেখানে "সফলতা" এবং সংখ্যা বিচারের সংখ্যা), এবং আপনার সাথে দেখাতে পারেন তথাকথিত "ডেল্টা পদ্ধতি" যে ভিন্নতা প্রায় ধ্রুবক (এবং , এটি সাধারণ বন্টনে হওয়া উচিত)। Y=2πarcsinXNXNYY
সম্ভাব্যতা

"সঠিক সম্ভাবনা" সরবরাহের জন্য আপনার দেওয়া লিঙ্কটি ভেঙে গেছে। তোমার কি আর একটা আছে?
এস কোলাসা - মনিকা

: @StephanKolassa আপনি এখানে পাশাপাশি Clopper পিয়ারসন সূত্র জানতে পারেন en.wikipedia.org/wiki/...
Joris Meys

24

কেন এটি প্রতিসাম্য হওয়া উচিত নয় তা দেখতে এবং 10 পরীক্ষায় আপনি 9 টি সাফল্য পেয়েছেন এমন পরিস্থিতিটি ভেবে দেখুন । তারপর এবং জন্য 95% সি আই [0,554, 0,997] হল। সর্বোচ্চ সীমা 1 চেয়ে বড় স্পষ্টত হতে পারে না, তাই অনিশ্চয়তা অধিকাংশ বাঁদিকে পড়া আবশ্যক ।p=0.9p^=0.9pp^


9

@ জোরিস প্রতিসম বা "অ্যাসিপটোটিক" ব্যবধানের কথা উল্লেখ করেছেন, সম্ভবত এটিই আপনি প্রত্যাশা করছেন। @ জরিস "হুবহু" ক্লপার-পিয়ারসন অন্তরগুলির উল্লেখ করেছেন এবং আপনাকে একটি রেফারেন্স দিয়েছেন যা দেখতে খুব সুন্দর দেখাচ্ছে। অনুপাতের জন্য আরও একটি আত্মবিশ্বাসের ব্যবধান রয়েছে যা আপনি সম্ভবত মোকাবিলা করবেন (নোট করুন এটিও প্রতিসম নয়), "উইলসন" ব্যবধান যা স্কোর পরীক্ষাটি উল্টানোর উপর ভিত্তি করে এক ধরণের অ্যাসিম্পটোটিক ব্যবধান। বিরতির সমাধানের সমাপ্তি ( ) সমীকরণটি p

(p^p)/p(1p)=±zα/2

যাইহোক, আপনি নিম্নলিখিত তিনটি দিয়ে আর এ পেতে পারেন:

library(Hmisc)
binconf(29, 38, method = "asymptotic")
binconf(29, 38, method = "exact")
binconf(29, 38, method = "wilson")

নোট করুন যে পদ্ধতি "উইলসন" হ'ল ইয়েটসের ধারাবাহিকতা সংশোধন ছাড়াই প্রোপস্টেস্ট দ্বারা ব্যবহৃত একই আত্মবিশ্বাসের ব্যবধান:

prop.test(29, 38, correct = FALSE)

লরা থম্পসনের ফ্রি এসপিএলএস + আর ম্যানুয়ালের জন্য এখানে দেখুন যা আগ্রেস্তির শ্রেণিবদ্ধ ডেটা বিশ্লেষণের সাথে রয়েছে যা এই বিষয়গুলি দুর্দান্তভাবে আলোচনা করা হয়েছে।


1
(+1) আপনি লরার পাঠ্যপুস্তকটি উদ্ধৃত করে এবং উইলসনের সিআইএস সম্পর্কিত তথ্যের পরিপূরক যুক্ত করেছেন তা চমৎকার N
chl

2
ধন্যবাদ। আমি উল্লেখ করতে চাই যে উইলসন বিরতি @ জরিস রেফারেন্স করা নিবন্ধে আলোচনা করা হয়েছে।

9

সেখানে হয় বাইনমিয়াল বন্টনের জন্য প্রতিসম আস্থা অন্তর: অপ্রতিসাম্য, আমাদের উপর চাপিয়ে দেয়া হয় না সব কারণে ইতিমধ্যে উল্লিখিত সত্ত্বেও। প্রতিসাম্য বিরতি সাধারণত এর মধ্যে নিকৃষ্ট বলে বিবেচিত হয়

  1. যদিও তারা সংখ্যাগতভাবে প্রতিসম হয়, তবে তারা সম্ভাবনার প্রতিসাম্য নয় : অর্থাৎ তাদের এক-লেজযুক্ত কভারেজ একে অপরের থেকে পৃথক। এটি - দ্বিপদী বিতরণের সম্ভাব্য অসামান্যতার প্রয়োজনীয় পরিণতি - বিষয়টির জটিলতা।

  2. @ রব হ্যান্ডম্যান দেখায় যেহেতু প্রায়শই একটি প্রান্তটি অবাস্তব (0 এর চেয়ে কম বা 1 এরও বেশি) হতে হয়।

এটি বলে, আমি সন্দেহ করি যে সংখ্যার সাথে প্রতিসম সিআইআইতে কিছু ভাল বৈশিষ্ট্য থাকতে পারে যেমন কিছু পরিস্থিতিতে সংশ্লেষগতভাবে প্রতিসম সংখ্যার চেয়ে কম হওয়ার প্রবণতা।


শেষ বাক্যটি সম্পর্কে: তাহলে কেন সংক্ষিপ্ত আত্মবিশ্বাসের ব্যবধানটি গণনা করবেন না (যার উভয় পক্ষের সমান অন্তর প্রস্থ বা সমান লেজের ক্ষেত্রের পরিবর্তে সমান ঘনত্বের মান রয়েছে)? 2 সম্পর্কিত ক্ষেত্রে .: এর উভয় পক্ষের সমান প্রস্থ থাকা বোঝায় যে একটি (সাধারণ) আনুমানিক ব্যবহার করা আবশ্যক। আমি বলব যে যদি এই সীমাটি [0, 1] এর বাইরে প্রসারিত করার প্রয়োজন হয় তবে এই নির্দিষ্ট ব্যবধানটি বিদ্যমান নেই। p^=k/n
ক্যাবেলাইটস মনিকা 24

@ সিবি আমি এটি অনুসরণ করি না প্রথমত, একটি স্বল্পতম সিআইয়ের অগত্যা প্রতিটি প্রান্তে সমান ঘনত্ব থাকবে না। দ্বিতীয়ত, "অস্তিত্ব নেই" সম্পর্কে মন্তব্যটি আমার কাছে কোনও অর্থবোধ করে না: "অস্তিত্ব" এর অর্থ কী?
whuber

1
সংক্ষিপ্ত সিআই প্রদত্ত কাভারেজের জন্য সংক্ষিপ্ততম সিআই গণনা করার জন্য, আমি সর্বাধিক ঘনত্বের সাথে শুরু করব এবং ঘনত্ব আরও বেশি দিকে যে দিকে একটি ছোট পদক্ষেপটি প্রসারিত করব। সেখানে আমি সর্বাধিক আত্মবিশ্বাসের কভারেজ পাই (সংক্ষিপ্ত পদক্ষেপের জন্য)। আমার কাঙ্ক্ষিত অঞ্চল (কভারেজ) না হওয়া পর্যন্ত আমি সিআইকে বারবার বড় করি। যদি আমার পদক্ষেপগুলি ছোট (অনন্য) হয় তবে উভয় পক্ষের ঘনত্ব একই (আনুমানিক) একই হবে। আমি কি এই কৌশলটিতে ভুল করেছি?
ক্যাবলাইটরা মনিকা

অস্তিত্ব নেই: যেমন 4 সফলতা আউট 5. আইটি 95% CI জন্য জিজ্ঞাসা করতে তবে যদি আমি সত্য জন্য সম্ভাব্যতা ঘনত্ব নিরূপণ জানার আছে দেওয়া যে আমি উপরের 5 বিচারের, লেজ খুঁজে 4 সফলতা পরিলক্ষিত প্রায় 0.35। সুতরাং গ্রহণের পরিবর্তে উদাহরণস্বরূপ স্বাভাবিক আনুমানিকতা বলা হচ্ছে যে 95% সিআই 1.15 পর্যন্ত যায় (যা দ্বিপদী ট্রায়ালের সত্যিকারের 1 এর বেশি হতে পারে না বলে সঠিক হতে পারে না, আমি সিআইকে নিম্ন এবং উচ্চতর সমান প্রস্থের সাথে বলতে পারি) শুধুমাত্র আস্থা মাত্রা জন্য বিদ্যমান ।pp^=4/5=0.8pp<70%
cbeleites মনিকা সমর্থন

1
আমরা কি বিভিন্ন জিনিস নিয়ে কথা বলছি? দ্বিপদী বিতরণ পৃথক, একটি সিআই হবে " , 94% পুনরাবৃত্তির মধ্যে আমরা observe পরীক্ষায় সাফল্য " লক্ষ্য করি। তবে আমি বুঝতে পেরেছিলাম যে আমরা ইতিমধ্যে পর্যবেক্ষিত এবং জন্য অনুমান করব । যেমন দেওয়া যে এর বাইরে পরীক্ষার সফলতা ছিল। সুতরাং আমি , কথা বলছি । এই না দ্বিপদ বিন্যাস কিন্তু অনুপাত যেকে { 3 , 4 , 5 } n = 5 পি এন কে পি কে = 4 এন = 5 পি আর ( পি | এন = 5 , কে = 4 ) পি [ 0 , 1 ] পি আর ( কে | এন , পি ) পিp=0.8k{3,4,5}n=5pnkpk=4n=5Pr(p|n=5,k=4)p[0,1]Pr(k|n,p)p(আমি এর নাম জানি না) এই বিতরণে কেন ঘনত্ব নেই তা বুঝতে দয়া করে আমাকে সহায়তা করুন?
সিবেলাইটস মনিকে 7

6

দ্বিপদ বিন্যাস ঠিক হয় না প্রতিসম, এখনো এই সত্য বিশেষ করে emerges কাছাকাছি বা এবং ছোট জন্য ; বেশিরভাগ লোকেরা এটি for এবং তাই বিভ্রান্তির জন্য ব্যবহার করে ।0 1 এন পি 0.5p01np0.5


2

আমি জানি যে এটি কিছুক্ষণ হয়ে গেছে, তবে আমি ভেবেছিলাম যে আমি এখানে চিমটি দেব। এন এবং পি দেওয়া, বাইনোমিয়াল বিতরণ সরাসরি ব্যবহার করে নির্দিষ্ট সংখ্যক সাফল্যের সম্ভাবনা গণনা করা সহজ। এরপরে কেউ বিতরণ পরীক্ষা করে দেখতে পারেন যে এটি প্রতিসাম্য নয়। এটি বৃহত এনপি এবং লার্জ এন (1-পি) এর প্রতিসাম্যের কাছে যাবে।

একটি নির্দিষ্ট সিআই গণনা করার জন্য কেউ পুচ্ছগুলিতে সম্ভাবনাগুলি জমা করতে পারে। বিতরণটির স্বতন্ত্র প্রকৃতির প্রভাবে, একটি লেজে একটি নির্দিষ্ট সম্ভাবনা খুঁজে পাওয়া (যেমন, 95% সিআইয়ের জন্য 2.5%) সাফল্যের সংখ্যার মধ্যে বিরতি প্রয়োজন inter এই পদ্ধতির সাহায্যে, কেউ সিআই-কে সরাসরি আনুমানিক ছাড়াই গণনা করতে পারে (প্রয়োজনীয় প্রবৃত্তি ব্যতীত)।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.