কেন আমরা অনুপাতের জন্য আস্থা অন্তর তৈরির জন্য টি-বিতরণটি ব্যবহার করি না?


18

অজানা জনসংখ্যার স্ট্যান্ডার্ড বিচ্যুতি (এসডি) সহ আত্মবিশ্বাস-ব্যবধান (সিআই) গণনা করার জন্য আমরা টি-বন্টন নিয়োগের মাধ্যমে জনসংখ্যার মান বিচ্যুতি অনুমান করি। উল্লেখ্য, যেখানে । তবে, জনসংখ্যার মানক বিচ্যুতির বিষয়ে আমাদের কাছে বিন্দু অনুমান নেই, আমরা সিআই = \ বার {এক্স} \ পিএম t_ {95 \%} (সে) যেখানে se = rac frac {s} { through অনুমানের মাধ্যমে অনুমান করি sqrt nCI=X¯±Z95%σX¯σX¯=σnCI=X¯±t95%(se)se=sn

বিপরীতভাবে, জনসংখ্যার অনুপাতের জন্য, সিআই গণনা করার জন্য, আমরা আনুমানিক CI=p^±Z95%(se) যেখানে se=p^(1p^)n প্রদত্ত np^15 এবং n(1p^)15

আমার প্রশ্ন, জনসংখ্যার অনুপাতের জন্য আমরা কেন স্ট্যান্ডার্ড বিতরণে সন্তুষ্ট?


1
আমার অন্তর্নিহিততা বলছে কারণ এটি আপনার দ্বিতীয় অজানা মানেটির গড় ত্রুটি পেতে get সিগমাσ , যা গণনাটি সম্পূর্ণ করার জন্য নমুনা থেকে অনুমান করা হয়। অনুপাতের জন্য আদর্শ ত্রুটি কোনও অতিরিক্ত অজানা জড়িত।
মনিকা পুনরায় ইনস্টল করুন - জি সিম্পসন

@ গ্যাভিনসিম্পসন বিশ্বাসযোগ্য মনে হচ্ছে। প্রকৃতপক্ষে যে কারণে আমরা টি বিতরণ চালু করেছি তা হ'ল স্ট্যান্ডার্ড বিচ্যুতির আনুমানিক ক্ষতিপূরণ দেওয়ার জন্য প্রবর্তিত ত্রুটিটি ক্ষতিপূরণ দেওয়া।
অভিজিৎ

3
আমি এটিকে অংশে দৃ than় বিশ্বাসের চেয়েও কম মনে করি কারণ t বিতরণ নমুনা পরিবর্তনের স্বতন্ত্রতার থেকে উদ্ভূত হয় এবং নমুনা একটি সাধারণ বন্টন থেকে প্রাপ্ত নমুনাগুলিতে বোঝায়, যেখানে দ্বি বিনমীয় বন্টন থেকে নমুনাগুলির জন্য দুটি পরিমাণই স্বতন্ত্র নয়।
whuber

@ অভিজিৎ কিছু পাঠ্যপুস্তক এই পরিসংখ্যানের (প্রায়শই কিছু শর্তাধীন) আনুমানিক হিসাবে টি-বিতরণ ব্যবহার করে - তারা এনএফ -1 ডিএফ হিসাবে ব্যবহার করে বলে মনে হয়। যদিও আমি এখনও এটির জন্য একটি ভাল আনুষ্ঠানিক যুক্তি দেখতে পাচ্ছি না, প্রায়শই প্রায়শই বেশ ভালভাবে কাজ করে বলে মনে হয়; আমি যে কেসগুলি পরীক্ষা করে দেখেছি সেগুলি স্বাভাবিক সান্নিধ্যের তুলনায় কিছুটা ভাল is তবে এটির জন্য টি-সান্নিধ্যের অভাব রয়েছে এমন দৃ solid় অ্যাসিম্পটিক যুক্তি রয়েছে। [সম্পাদনা করুন: আমার নিজের চেকগুলি হুবুহু শোগুলির সাথে কম-বেশি মিল ছিল; জেড এবং টি এর মধ্যে পার্থক্যটি পরিসংখ্যানগুলির তুলনায় তাদের পার্থক্যের তুলনায় অনেক ছোট]
গ্লেন_বি -রিনস্টেট মনিকা

1
এটি হতে পারে যে একটি সম্ভাব্য যুক্তি রয়েছে (সম্ভবত উদাহরণস্বরূপ সিরিজের সম্প্রসারণের প্রাথমিক শর্তগুলির ভিত্তিতে) এটি প্রতিষ্ঠিত করতে পারে যে টি প্রায় সর্বদা ভাল হওয়ার আশা করা উচিত, বা সম্ভবত কিছু নির্দিষ্ট শর্তে এটি আরও ভাল হওয়া উচিত, তবে আমি এই ধরণের কোনও যুক্তি দেখেনি। ব্যক্তিগতভাবে আমি সাধারনত z তে আঁকড়ে থাকি কিন্তু কেউ টি টি ব্যবহার করে তবে আমি চিন্তিত নই।
গ্লেন_বি -রিনস্টেট মনিকা

উত্তর:


20

উভয় স্ট্যান্ডার্ড নরমাল এবং স্টুডেন্ট টি ডিস্ট্রিবিউশনগুলি বিতরণের পরিবর্তে খুব কম

Z=p^pp^(1p^)/n

ছোট এতটাই দুর্বল যে ত্রুটিটি এই দুটি বিতরণের মধ্যে পার্থক্যকে বামন করে।n,

1/2 এর জন্য এখানে তিনটি ডিস্ট্রিবিউশনের তুলনা ( বা are শূন্য, যেখানে অনুপাত অপরিজ্ঞাত রয়েছে এমন কেসগুলি বাদ দিয়ে )p^1p^n=10,p=1/2:

Figure 1

"গবেষণামূলক" বিতরণটি যা পৃথক হতে হবে কারণ অনুমানগুলি সীমাবদ্ধ সীমাতে সীমাবদ্ধZ,p^{0,1/n,2/n,,n/n}.

বন্টন পড়তা একটি ভাল কাজ বলে মনে হচ্ছে।t

জন্য এবং আপনি দেখতে পারেন আদর্শ স্বাভাবিক এবং শিক্ষার্থীর টি ডিস্ট্রিবিউশন মধ্যে পার্থক্য সম্পূর্ণরূপে তুচ্ছ হল:n=30p=1/2,

Figure 2

কারণ স্ট্যান্ডার্ড সাধারণ বিতরণের চেয়ে স্ট্যান্ডার্ড টি বিতরণ আরও জটিল (এটি "স্বাধীনতার ডিগ্রি অনুসারে বিতরণকৃত একটি সম্পূর্ণ পরিবার, আগে একক পৃষ্ঠার পরিবর্তে সারণীর পুরো অধ্যায়গুলির প্রয়োজন হয়), আদর্শ সাধারণ প্রায় সকলের জন্য ব্যবহৃত হয় অনুমান।


2
গুণগত উত্তর। +1
দেমেত্রি পানানোস

10

আত্মবিশ্বাসের ব্যবধানে টি বিতরণকে কোনও কারণে ব্যবহারের ন্যায্যতা এই অনুমানের উপর নির্ভর করে যে অন্তর্নিহিত তথ্যগুলি একটি সাধারণ বিতরণ অনুসরণ করে, যা স্ট্যান্ডার্ড বিচ্যুতির অনুমান করার সময় চি-স্কোয়ার ডিস্ট্রিবিউশনের দিকে নিয়ে যায় এবং এভাবে x¯μs/ntn1। অনুমানের অধীনে এটি একটি সঠিক ফলাফল যাtব্যবহার করার সময় ঠিক 95% কভারেজের সাথে আত্মবিশ্বাসের বিরতি নিয়ে আসেএবংzব্যবহার করে 95% এরও কম কভারেজ দেয়।

অনুপাত জন্য Wald, অন্তর ক্ষেত্রে, আপনি শুধুমাত্র মধ্যে asymptotic স্বাভাবিক পেতে পি - পিp^pp^(1p^)/nযখন এন বৃহৎ যথেষ্ট, যা পি উপর নির্ভর করে। প্রক্রিয়াটির প্রকৃত কভারেজ সম্ভাবনা, যেহেতু সাফল্যের অন্তর্নিহিত গণনাগুলি পৃথক, এটি কখনও কখনও নীচে এবং কখনও কখনও নামমাত্র কভারেজের উপরে 95% অজানাpউপর নির্ভর করে। সুতরাং,tব্যবহারের কোনও তাত্ত্বিক ন্যায়সঙ্গততা নেইএবং ব্যবহারিক দৃষ্টিকোণ থেকে যে ব্যবস্থাকে আরওবিস্তৃত করার জন্যtব্যবহার করাআসলে ৯৯% নামমাত্র কভারেজ অর্জনে সহায়তা করবেতার কোনও গ্যারান্টি নেই।

কভারেজ সম্ভাবনা হুবহু গণনা করা যেতে পারে, যদিও এটি অনুকরণ করা মোটামুটি সোজা। নিম্নলিখিত উদাহরণটি যখন n = 35 হয় তখন সিমুলেটেড কভারেজ সম্ভাব্যতা দেখায়। এটি দেখায় যে জেড-ইন্টারভাল ব্যবহারের জন্য কভারেজ সম্ভাবনা সাধারণত .৯৯ এর তুলনায় কিছুটা কম থাকে, যখন টি-ইন্টারভালের জন্য কভারেজের সম্ভাবনা সাধারণত .95 এর কাছাকাছি থেকে কম হতে পারে তবে পি এর প্রশংসনীয় মানের উপর আপনার পূর্ববর্তী বিশ্বাসের উপর নির্ভর করে ।

enter image description here

enter image description here


3
+1 স্টুডেন্ট টি এবং নরমাল সিআই এর আপেক্ষিক নির্ভুলতা সম্পর্কে আমি যে দাবিগুলি করেছি (কেবলমাত্র কঠোর বিক্ষোভের তুলনায় সিডিএফগুলির গ্রাফগুলি পরিদর্শন করার উপর ভিত্তি করে) এটির দৃষ্টান্তমূলক চিত্রগুলি are
হোবার

6

অ্যাডামো এবং জেএসকি উভয়ই দুর্দান্ত উত্তর দেয়।

আমি তাদের বক্তব্যগুলি সরল ইংরেজী দিয়ে পুনরাবৃত্তি করার চেষ্টা করব:

অন্তর্নিহিত বিতরণ যখন স্বাভাবিক হয়, আপনি জানেন যে দুটি পরামিতি রয়েছে: গড় এবং বৈকল্পিক । টি বিতরণ বৈকল্পের সঠিক মান না জেনে গড়ের দিকে অনুমান করার একটি উপায় সরবরাহ করে। প্রকৃত রূপগুলি ব্যবহার না করে কেবলমাত্র নমুনার অর্থ এবং নমুনা রূপগুলি প্রয়োজন। যেহেতু এটি একটি সঠিক বিতরণ, আপনি ঠিক কী কী পাচ্ছেন তা আপনি জানেন। অন্য কথায়, কভারেজ সম্ভাবনা সঠিক। টি এর ব্যবহার কেবল অজানা জনপরিবর্তনের বৈকল্পিকের কাছাকাছি আসার আকাঙ্ক্ষাকে প্রতিফলিত করে।

আমরা যখন অনুপাতের ভিত্তিতে অনুমান করি, তবে, অন্তর্নিহিত বিতরণ দ্বিপদী হয়। সঠিক বিতরণটি পেতে আপনার ক্লোপার-পিয়ারসন আস্থার ব্যবধানগুলি দেখতে হবে। আপনি যে সূত্রটি সরবরাহ করেন তা হ'ল ওয়াল্ডের আত্মবিশ্বাসের ব্যবধানের সূত্র। এটি দ্বিপদী বিতরণ আনুমানিকভাবে সাধারণ বিতরণ ব্যবহার করে , কারণ সাধারণ বিতরণ দ্বিপদী বিতরণের সীমাবদ্ধ বিতরণ। এই ক্ষেত্রে, আপনি কেবল আনুমানিক কারণ, টি স্ট্যাটাস ব্যবহার করে অতিরিক্ত স্তরের যথাযথতা অপ্রয়োজনীয় হয়ে যায়, এগুলি সমস্ত অভিজ্ঞতা অভিজ্ঞতাতে নেমে আসে। ব্রুসেটের উত্তরে যেমন পরামর্শ দেওয়া হয়েছে, এই ধরণের আনুমানিকতার জন্য আজকাল এগ্রেস্তি-কল সহজ এবং মানক সূত্র।

টেক্সাস এ অ্যান্ড এম এর আমার প্রফেসর ডঃ লঙ্গনেকার দ্বিপদী ভিত্তিক সিআইয়ের তুলনায় বিভিন্ন আনুমানিকতা কীভাবে কাজ করে তা বোঝানোর জন্য একটি সাধারণ সিমুলেশন করেছেন।

Comparison of Various 95% C.I.’s for Proportion

আরো তথ্য নিবন্ধ পাওয়া যাবে একটি বাইনমিয়াল অনুপাত জন্য বিরতি প্রাক্কলন মধ্যে পরিসংখ্যানগত বিজ্ঞান , ভোল। 16, পি। 101-133, এল ব্রাউন, টি। কাই এবং এ। দাশগুপ্ত দ্বারা রচিত। মূলত, এসি সিআই n> = 40 এর জন্য প্রস্তাবিত।

enter image description here


3

স্বাভাবিক গড়ার জন্য আত্মবিশ্বাস ব্যবধান। ধরুন আমাদের কাছে সাধারণ জনসংখ্যার একটি র্যান্ডম নমুনা X1,X2,Xn । স্বাভাবিক গড় জন্য আস্থা ব্যবধান যাক চেহারা μ হাইপোথিসিস টেস্টিং পরিপ্রেক্ষিতে। তাহলে σ পরিচিত হয়, তারপর একটি দ্বি-পার্শ্বযুক্ত পরীক্ষা H0:μ=μ0 বিরুদ্ধে Ha:μμ0 পরিসংখ্যাত উপর ভিত্তি করে তৈরি Z=X¯μ0σ/n.যখনH0টি সত্য হয়,ZNorm(0,1),তাই আমরাH05% স্তরেপ্রত্যাখ্যান করিযদি|Z|1.96.

তারপর 'পরীক্ষা ইনভার্টারিং', আমরা বলতে যে জন্য একটি 95% সি আই μ মান নিয়ে গঠিত μ0 যে প্রত্যাখ্যান হতে না - 'বিশ্বাসযোগ্য' মান μ.সিআই the এক্স ± 1.96 σ / form X¯±1.96σ/n,যেখানে±1.96কাটা সম্ভাব্যতা 0.025 উচ্চ এবং নিম্ন মুদ্রার উলটা পিঠ থেকে, যথাক্রমে আদর্শ সাধারন বন্টনের করুন।

জনসংখ্যা স্ট্যানডার্ড ডেভিয়েশন তাহলে σ অজানা এবং নমুনা স্ট্যানডার্ড ডেভিয়েশন দ্বারা অনুমান করা হয় S, তারপর আমরা পরিসংখ্যাত ব্যবহার T=X¯μ0S/n.আগেই 1900 মানুষের অনুমিত যেTপ্রায় মান স্বাভাবিকnবৃহৎ যথেষ্ট এবং ব্যবহৃতSঅজানা জন্য একটি বিকল্প হিসেবেσ.যথেষ্ট পরিমাণেকত বড়গণনাতা নিয়ে বিতর্ক ছিল।

অবশেষে, এটি জানা গেল যে TT(ν=n1), শিক্ষার্থীর টি বিতরণ n1 ডিগ্রি সহ স্বাধীনতা। সেই অনুযায়ী, যখন σ জানা যায় না, আমরা ব্যবহার X¯±tS/n,যেখানে±tউচ্চ এবং নিম্ন মুদ্রার উলটা পিঠ থেকে কাটা সম্ভাব্যতা 0.025 যথাক্রমে, এরT(n1).

[ নোট: জন্য n>30, মানুষ যে জন্য 95% সিআইএস লক্ষ্য করেছি t21.96.সুতরাং শতাব্দী প্রাচীন ধারণাটি যে আপনি কেবলমাত্র " S " কে σ যখন σ অজানা এবং n>30, জন্য প্রতিস্থাপন করতে পারেন , এটি সম্প্রতি প্রকাশিত কয়েকটি বইতেও অজানা রয়েছে]]

Xnp^=X/np.H0:p=p0Ha:pp>0,Z=p^p0p0(1p0)/n.H0,ZaprxNorm(0,1). So we reject H0 if |Z|1.96.

If we seek to invert this test to get a 95% CI for p, we run into some difficulties. The 'easy' way to invert the test is to start by writing p^±1.96p(1p)n. But his is useless because the value of p under the square root is unknown. The traditional Wald CI assumes that, for sufficiently large n, it is OK to substitute p^ for unknown p. Thus the Wald CI is of the form p^±1.96p^(1p^)n. [Unfortunately, the Wald interval works well only if the number of trials n is at least several hundred.]

More carefully, one can solve a somewhat messy quadratic inequality to 'invert the test'. The result is the Wilson interval. (See Wikipedia.) For a 95% confidence interval a somewhat simplified version of this result comes from defining nˇ=n+4 and pˇ=(X+2)/nˇ and then computing the interval as pˇ±1.96pˇ(1pˇ)nˇ. This style of binomial confidence interval is widely known as the Agresti-Coull interval; it has been widely advocated in elementary textbooks for about the last 20 years.

In summary, one way to look at your question is that CIs for normal μ and binomial p can be viewed as inversions of tests.

(a) The t distribution provides an exact solution to the problem of needing to use S for σ when σ is unknown.

(b) Using p^ for p requires some care because the mean and variance of p^ both depend on p. The Agresti-Coull CI provides one serviceable way to get CIs for binomial p that are reasonably accurate even for moderately small n.


2

Note your use of the σ notation which means the (known) population standard deviation.

The T-distribution arose as an answer to the question: what happens when you don't know σ?

He noted that, when you cheat by estimating σ from the sample as a plug-in estimator, your CIs are on average too narrow. This necessitated the T-distribution.

Conversely, if you use the T distribution when you actually do know σ, your confidence intervals will on average be too wide.

Also, it should be noted that this question mirrors the answer solicited by this question.


2
The pseudonym Gosset published under was "Student" not "Student-T". He also didn't actually come up with the standard t-distribution itself, nor was the statistic he dealt with actually the t-statistic (he did equivalent things, essentially dealing with a scaled t, but almost all the formalism we have now comes from Fisher's work). Fisher wrote the statistic the way we write it. Fisher called it the t. Fisher formally derived the distribution of the statistic (showing Gosset's combination of algebra, intuition and accompanying simulation-argument about his version of the statistic was correct)
Glen_b -Reinstate Monica

1
See Gosset's 1908 paper here: archive.org/details/biometrika619081909pear/page/n13 - there's also a nice readable pdf of the paper redone in LaTeX here. Note that this is out of copyright since it comes more than a few years before Steamboat Willie.
Glen_b -Reinstate Monica

@Glen_b Thanks! I deleted the apparently wrong anecdotes to history.
AdamO
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.