দুটি বিতরণের জন্য পরিসংখ্যান পরীক্ষা যেখানে কেবল 5-সংখ্যার সারাংশ জানা যায়


17

আমার দুটি বিতরণ রয়েছে যেখানে কেবল 5-সংখ্যার সারসংক্ষেপ (ন্যূনতম, 1 ম চতুর্থাংশ, মধ্যমা, 3 য় চতুর্থাংশ, সর্বাধিক) এবং নমুনা আকার জানা যায়। এখানে প্রশ্নের ক্রিয়াকলাপ , সমস্ত ডেটা পয়েন্ট উপলব্ধ নয়।

এমন কোন প্যারাম্যাট্রিক স্ট্যাটিস্টিকাল টেস্ট আছে যা আমাকে যাচাই করতে অনুমতি দেয় যে দুজনের অন্তর্নিহিত বিতরণগুলি আলাদা কিনা?

ধন্যবাদ!

উত্তর:


9

নাল অনুমানের অধীনে যে বিতরণগুলি একই রকম এবং উভয় নমুনা এলোমেলোভাবে এবং স্বতন্ত্রভাবে সাধারণ বিতরণ থেকে প্রাপ্ত হয়, আমরা সমস্ত (নির্ধারক) পরীক্ষার আকারগুলি নিয়ে কাজ করতে পারি যা একটি বর্ণের সাথে অন্য বর্ণের সাথে তুলনা করে তৈরি করা যেতে পারে । এর মধ্যে কয়েকটি পরীক্ষায় বিতরণের পার্থক্য সনাক্ত করার যুক্তিসঙ্গত ক্ষমতা রয়েছে বলে মনে হয়।5×5


বিশ্লেষণ

সংখ্যার ব্যাচের লেটার সংক্ষিপ্তসারটির মূল সংজ্ঞাটি নিম্নলিখিত [টুকি ইডিএ 1977]:5x1x2xn

  • যে কোনও সংখ্যার জন্য এ সংজ্ঞায়িত করুন{ ( 1 + 2 ) / 2 , ( 2 + 3 ) / 2 , , ( এন - 1 + এন ) / 2 } এক্স এম = ( এক্স আই + এক্স i + 1 ) / 2।m=(i+(i+1))/2{(1+2)/2,(2+3)/2,,(n1+n)/2}xm=(xi+xi+1)/2.

  • যাক ।i¯=n+1i

  • এবং চলুন= ( মি + + 1 ) / 2।m=(n+1)/2h=(m+1)/2.

  • -letter সারসংক্ষেপ সেট তার উপাদান হিসাবে পরিচিত হয় সর্বনিম্ন, নিম্ন কবজা, মধ্যমা, বড় হাতের কবজা, এবং সর্বোচ্চ, যথাক্রমে।{ এক্স - = x 1 , এইচ - = এক্স এইচ , এম = এক্স এম , এইচ + = এক্স ˉ এইচ , এক্স + = এক্স এন } 5{X=x1,H=xh,M=xm,H+=xh¯,X+=xn}.

উদাহরণস্বরূপ, ডেটা ব্যাচে আমরা সেই , এবং গণনা করতে পারি , কোথা থেকে(3,1,1,2,3,5,5,5,7,13,21)n=12m=13/2h=7/2

X=3,H=x7/2=(x3+x4)/2=(1+2)/2=3/2,M=x13/2=(x6+x7)/2=(5+5)/2=5,H+=x7/2¯=x19/2=(x9+x10)/2=(5+7)/2=6,X+=x12=21.

কব্জাগুলি চতুর্ভুজগুলির কাছাকাছি (তবে সাধারণত ঠিক একই রকম হয় না)। কোয়ার্টাইলগুলি ব্যবহার করা থাকলে নোট করুন যে সাধারণভাবে তারা দুটি পরিসংখ্যানের গাণিতিক উপায়ে হবে এবং এর ফলে একটি মধ্যে থাকবে যেখানে এবং অ্যালগরিদম থেকে নির্ধারণ করতে পারি কোয়ার্টাইলগুলি গণনা করতে ব্যবহৃত হত। সাধারণত, একটি বিরতি হয় আমি ঢিলেঢালাভাবে লিখতে হবে কিছু যেমন ভরযুক্ত গড় উল্লেখ করতে এবং ।i n q [ i , i + 1 ] x q x i x i + 1[xi,xi+1]inq[i,i+1]xqxixi+1

দুটি ব্যাচের ডেটা এবং দুটি পৃথক পাঁচ অক্ষরের সংক্ষিপ্তসার রয়েছে। আমরা নাল অনুমানটি পরীক্ষা করতে পারি যে উভয়ই letters এর মধ্যে একটি letters সাথে তুলনা করে একটি সাধারণ বিতরণ র্যান্ডম নমুনা । উদাহরণ হিসেবে বলা যায়, আমরা উপরের কবজা তুলনা পারে নিচের কবজা করার কি না দেখার জন্য অনুক্রমে তুলনায় উল্লেখযোগ্যভাবে কম । এটি একটি নির্দিষ্ট প্রশ্নের দিকে নিয়ে যায়: কীভাবে এই সুযোগটি গণনা করতে হবে,( y j , j = 1 , , m ) , F x x q y y r x y x y(xi,i=1,,n)(yj,j=1,,m),Fxxqyyrxyxy

PrF(xq<yr).

ভগ্নাংশের এবং জন্য না জেনে সম্ভব নয় । তবে, কারণ এবং তারপরে একটি ফোরটিওরিqrFxqxqyryr,

PrF(xq<yr)PrF(xq<yr).

আমরা ততক্ষণে ডান হাতের সম্ভাবনা গণনা করে কাঙ্ক্ষিত সম্ভাবনার উপর সর্বজনীন ( স্বতন্ত্র ) উপরের সীমাগুলি অর্জন করতে পারি , যা পৃথক অর্ডার পরিসংখ্যানের সাথে তুলনা করে। আমাদের সামনে সাধারণ প্রশ্নF

সুযোগ যে কি সর্বোচ্চ মান চেয়ে কম হবে সর্বোচ্চ মান একটি সাধারণ বিতরণ থেকে IID টানা?qthnrthm

এমনকি এটির সর্বজনীন উত্তর নেই যতক্ষণ না আমরা সম্ভাবনাটি অত্যধিকভাবে পৃথক মূল্যবোধগুলিতে কেন্দ্রীভূত হওয়ার সম্ভাবনাটি অস্বীকার করি: অন্য কথায়, আমাদের ধরে নেওয়া দরকার যে সম্পর্কগুলি সম্ভব নয়। এর অর্থ অবশ্যই একটি অবিচ্ছিন্ন বিতরণ হতে হবে। যদিও এটি একটি অনুমান, এটি একটি দুর্বল এবং এটি প্যারামিট্রিক নয়।F


সমাধান

গণনাতে ডিস্ট্রিবিউশন কোনও ভূমিকা রাখে না, কারণ সম্ভাব্যতা রূপান্তর করে মাধ্যমে সমস্ত মান পুনরায় প্রকাশ করার পরে , আমরা নতুন ব্যাচগুলি পাইFF

X(F)=F(x1)F(x2)F(xn)

এবং

Y(F)=F(y1)F(y2)F(ym).

তদুপরি, এই পুনরায় একঘেয়েমি এবং ক্রমবর্ধমান: এটি শৃঙ্খলা সংরক্ষণ করে এবং এর ফলে ইভেন্টটি সংরক্ষণ করে যেহেতু অবিচ্ছিন্ন, এই নতুন ব্যাচগুলি ইউনিফর্ম বিতরণ থেকে আঁকা । এই বিতরণের অধীনে - এবং স্বরলিপিটি থেকে এখন অতিরিক্ত " " বাদ দেওয়া - আমরা সহজেই দেখতে যে এর একটি বিটা = বিটা বিতরণ রয়েছে:xq<yr.F[0,1]Fxq(q,n+1q)(q,q¯)

Pr(xqx)=n!(nq)!(q1)!0xtq1(1t)nqdt.

একইভাবে এর বিতরণ হ'ল বিটা । অঞ্চলে দ্বিগুণ সংহতকরণ সম্পাদন করে আমরা কাঙ্ক্ষিত সম্ভাবনা অর্জন করতে পারি,yr(r,m+1r)xq<yr

Pr(xq<yr)=Γ(m+1)Γ(n+1)Γ(q+r)3F~2(q,qn,q+r; q+1,m+q+1; 1)Γ(r)Γ(nq+1)

যেহেতু সমস্ত মান অবিচ্ছেদ্য, সমস্ত মানগুলি সত্যই নিখরচেত্র: ইন্টিগ্রাল এর জন্য অল্প-পরিচিত ফাংশন একটি নিয়মিত হাইপারজেমেট্রিক ফাংশন । এক্ষেত্রে এটি দৈর্ঘ্যের একটি সহজ সরল বিকল্প হিসাবে গণনা করা যেতে পারে দৈর্ঘ্যের কিছু ফ্যাকটোরিয়াল দ্বারা সাধারণ:n,m,q,rΓΓ(k)=(k1)!=(k1)(k2)(2)(1)k0.3F~2nq+1

Γ(q+1)Γ(m+q+1) 3F~2(q,qn,q+r; q+1,m+q+1; 1)=i=0nq(1)i(nqi)q(q+r)(q+r+i1)(q+i)(1+m+q)(2+m+q)(i+m+q)=1(nq1)q(q+r)(1+q)(1+m+q)+(nq2)q(q+r)(1+q+r)(2+q)(1+m+q)(2+m+q).

এটি সম্ভাবনার গণনাটিকে সংযোজন, বিয়োগ, গুণ এবং বিভাগের চেয়ে জটিল কিছুতে কমিয়েছে। গণনার প্রচেষ্টা হিসাবে স্কেল করে প্রতিসাম্য কাজে লাগিয়েO((nq)2).

Pr(xq<yr)=1Pr(yr<xq)

নতুন গণনাটি as হিসাবে স্কেল করে আমরা যদি ইচ্ছা করি তবে দুটি পরিমাণের মধ্যে আরও সহজ চয়ন করতে পারি allowing এটি খুব কমই প্রয়োজনীয় হবে, যদিও, লেটারের সংক্ষিপ্তসারগুলি কেবলমাত্র ছোট ব্যাচগুলির জন্য ব্যবহৃত হয়, খুব কমইO((mr)2),5n,m300.


আবেদন

ধরুন, দুটি ব্যাচের আকার এবং । জন্য প্রাসঙ্গিক অর্ডার পরিসংখ্যান এবং হয় এবং যথাক্রমে। এখানে সুযোগ একটা টেবিল যে সঙ্গে সারি ইন্ডেক্স এবং কলাম ইন্ডেক্স:n=8m=12xy1,3,5,7,81,3,6,9,12,xq<yrqr

q\r 1       3       6       9       12
1   0.4      0.807  0.9762  0.9987  1.
3   0.0491  0.2962  0.7404  0.9601  0.9993
5   0.0036  0.0521  0.325   0.7492  0.9856
7   0.0001  0.0032  0.0542  0.3065  0.8526
8   0.      0.0004  0.0102  0.1022  0.6

একটি সাধারণ সাধারণ বিতরণ থেকে 10,000 আইডির নমুনা জোড়াগুলির সিমুলেশন এগুলির কাছাকাছি ফলাফল দেয়।

ব্যাচটি ব্যাচের চেয়ে উল্লেখযোগ্যভাবে কম কিনা তা নির্ধারণ করতে সাইজ যেমন এ একতরফা পরীক্ষা তৈরি করতে , এই টেবিলের মানগুলি কাছাকাছি বা ঠিক নীচে সন্ধান । ভাল পছন্দ হয় যেখানে সুযোগ এ একটি সুযোগ , এবং একটি সুযোগ কোনটি ব্যবহার করবেন তা বিকল্প অনুমানের বিষয়ে আপনার ধারণার উপর নির্ভর করে। উদাহরণস্বরূপ, পরীক্ষাটি নিম্ন কব্জাকে এর ক্ষুদ্রতম মানের সাথে তুলনা করেα,α=5%,xyα(q,r)=(3,1),0.0491,(5,3)0.0521(7,6)0.0542.(3,1)xy এবং যখন একটি নিম্নের কবজটি ছোট হয় তখন একটি উল্লেখযোগ্য পার্থক্য খুঁজে পায়। এই পরীক্ষাটি চরম মানের সংবেদনশীল ; যদি বহির্মুখী ডেটা সম্পর্কে কিছু উদ্বেগ থাকে তবে এটি চয়ন করা ঝুঁকিপূর্ণ পরীক্ষা হতে পারে। অন্যদিকে পরীক্ষা উপরের কবজা তুলনা মধ্যমা থেকে । এই এক আউটলায়িং মান খুব জোরালো হয় ব্যাচ এবং পরিমিতরূপে মধ্যে outliers জোরালো । তবে এটি মধ্যমানের মানকে এর মধ্যমানের সাথে তুলনা করে । যদিও এটি সম্ভবত তুলনায় ভাল তুলনা, এটি কেবল দুটি লেজের মধ্যে যে বিতরণগুলি ঘটে তা সনাক্ত করতে পারে না।y(7,6)xyyxxy

বিশ্লেষণাত্মকভাবে এই সমালোচনামূলক মানগুলি গণনা করতে সক্ষম হওয়া একটি পরীক্ষা নির্বাচন করতে সহায়তা করে। একবার একটি (বা বেশ কয়েকটি) পরীক্ষা সনাক্ত করা গেলে, পরিবর্তনগুলি সনাক্ত করার তাদের শক্তি সম্ভবত সিমুলেশনের মাধ্যমে সর্বোত্তম মূল্যায়ন করা হয়। বিতরণ কীভাবে পৃথক হবে তার উপরে শক্তি নির্ভর করবে। এই পরীক্ষাগুলির আদৌ কোনও শক্তি আছে কি না তা অনুধাবন করার জন্য, আমি একটি সাধারণ বিতরণ থেকে অঙ্কিত সাথে পরীক্ষাটি : অর্থাৎ, এর মধ্যকটি একটি স্ট্যান্ডার্ড বিচ্যুতি দ্বারা স্থানান্তরিত হয়েছিল। একটি সিমুলেশন সময়ে পরীক্ষাটি ছিল significant : যা এই ছোট ডেটাসেটের জন্য প্রশংসনীয় শক্তি।(5,3)yj(1,1)54.4%

আরও অনেক কিছু বলা যায়, তবে এগুলির সবগুলি দ্বিমুখী পরীক্ষা পরিচালনা করা সম্পর্কে কীভাবে প্রভাবগুলির আকারগুলি নির্ধারণ করতে হবে ইত্যাদি stuff মূল বিষয়টি প্রদর্শিত হয়েছে: দুটি ব্যাচের তথ্যের লেটার সংক্ষিপ্তসারগুলি (এবং আকারগুলি) দেওয়া হলে তাদের অন্তর্নিহিত জনসংখ্যার পার্থক্য সনাক্ত করার জন্য যুক্তিসঙ্গতভাবে শক্তিশালী নন-প্যারাম্যাট্রিক পরীক্ষাগুলি তৈরি করা সম্ভব5 এবং অনেক ক্ষেত্রে আমাদের এমনকি অনেকগুলি থাকতে পারে পরীক্ষার পছন্দ থেকে নির্বাচন করা। এখানে বিকশিত তত্ত্বটি তাদের নমুনাগুলি থেকে সঠিকভাবে নির্বাচিত আদেশের পরিসংখ্যানের মাধ্যমে দুটি জনসংখ্যার তুলনা করার জন্য বিস্তৃত অ্যাপ্লিকেশন রয়েছে (কেবলমাত্র তারা যারা অক্ষরের সংক্ষিপ্তসারগুলি প্রায় অনুমান করে না)।

এই ফলাফলগুলিতে অন্যান্য দরকারী অ্যাপ্লিকেশন রয়েছে। উদাহরণস্বরূপ, একটি বক্সপ্লট -letter সারাংশের একটি গ্রাফিকাল চিত্রণ । সুতরাং, একটি বক্সপ্লট দেখানো নমুনা আকারের জ্ঞানের পাশাপাশি, আমাদের এই প্লটগুলির দৃশ্যমান পার্থক্যের তাত্পর্য নিরূপণের জন্য আমাদের অনেকগুলি সহজ পরীক্ষা (একটি বাক্সের অংশগুলির তুলনা এবং অন্যটির সাথে হুইস্কারের উপর ভিত্তি করে) উপলব্ধ রয়েছে।5


7

আমি যথেষ্ট আত্মবিশ্বাসী যে ইতিমধ্যে সাহিত্যে একটি হতে পারে না, তবে আপনি যদি একটি ননপ্রেমেট্রিক পরীক্ষার সন্ধান করেন তবে এটি অন্তর্নিহিত পরিবর্তনশীলটির ধারাবাহিকতার ধারনার অধীনে থাকতে হবে - আপনি কোনও ইসিডিএফ এর মতো দেখতে পারেন could প্রকারের পরিসংখ্যান - কোনও কলমোগরভ-স্মারনভ প্রকারের পরিসংখ্যানের সমতুল্য বা অ্যান্ডারসন-ডার্লিংয়ের পরিসংখ্যানের অনুরূপ কিছু বলুন (যদিও অবশ্যই এই ক্ষেত্রে পরিসংখ্যানের বিতরণ খুব আলাদা হবে)।

ছোট নমুনাগুলির বিতরণ পাঁচটি সংখ্যার সারসংক্ষেপে ব্যবহৃত কোয়ান্টাইলগুলির সঠিক সংজ্ঞাগুলির উপর নির্ভর করবে।

উদাহরণস্বরূপ, আর (n = 10) এ ডিফল্ট কোয়ার্টাইল এবং চরম মানগুলি বিবেচনা করুন:

> summary(x)[-4]
    Min.  1st Qu.   Median  3rd Qu.     Max. 
-2.33500 -0.26450  0.07787  0.33740  0.94770 

পাঁচটি সংখ্যার সংক্ষিপ্তসার জন্য এর আদেশ দ্বারা উত্পাদিতদের সাথে তুলনা করুন:

> fivenum(x)
[1] -2.33458172 -0.34739104  0.07786866  0.38008143  0.94774213

লক্ষ্য করুন যে উপরের এবং নীচের অংশটি fivenumকমান্ডের সাথে সম্পর্কিত কব্জাগুলির থেকে পৃথক ।

বিপরীতে, n = 9 এ দুটি ফলাফল অভিন্ন (যখন তারা সমস্ত পর্যবেক্ষণে আসে)

(আর কোয়ান্টাইলের জন্য নয়টি পৃথক সংজ্ঞা নিয়ে আসে ))

পর্যবেক্ষণে সংঘটিত তিনটি কোয়ার্টাইলের ক্ষেত্রে (যখন এন = 4 কে + 1, আমি বিশ্বাস করি, সম্ভবত তাদের কয়েকটি সংজ্ঞায় অধিকতর মামলার অধীনে) আসলে বীজগণিতভাবে অযোগ্য হতে পারে এবং ননপ্যারমেট্রিক হতে পারে, তবে সাধারণ ক্ষেত্রে (অনেক সংজ্ঞা জুড়ে) হতে পারে এতটুকু ডোবাল না হওয়া এবং অপ্রয়োজনীয় নাও হতে পারে (কমপক্ষে নমুনাগুলির মধ্যে একটিতে কোয়ান্টাইল উত্পাদন করার জন্য আপনি পর্যবেক্ষণ গড়ে তুলছেন এমন ক্ষেত্রে বিবেচনা করুন ... সেক্ষেত্রে নমুনা কোয়ান্টাইলগুলির বিভিন্ন ব্যবস্থার সম্ভাবনাগুলি আর প্রভাব ফেলবে না তথ্য বিতরণ)।

একবার একটি নির্দিষ্ট সংজ্ঞাটি নির্বাচিত হয়ে গেলে সিমুলেশনটি এগিয়ে যাওয়ার উপায় বলে মনে হয়।

কারণ এটি এর সম্ভাব্য মানগুলির একটি উপসেটে ননপ্রেমেট্রিক হবে , এটি অন্য মূল্যবোধের জন্য আর বিতরণ মুক্ত রাখার বিষয়টি এত বড় উদ্বেগ নাও হতে পারে; অন্তর্বর্তী নমুনা আকারে প্রায় বিতরণ বিনামূল্যে বলতে পারেন, কমপক্ষে যদি খুব ছোট না হয়।nn


আসুন এমন কয়েকটি ক্ষেত্রে দেখুন যা বিতরণ মুক্ত হওয়া উচিত, এবং কয়েকটি ছোট নমুনার আকার বিবেচনা করুন। নমুনা আকারের জন্য যেখানে পাঁচ সংখ্যার সারাংশের মানগুলি পৃথক অর্ডার পরিসংখ্যান হবে তার জন্য পাঁচটি সংক্ষিপ্তসারটিতে সরাসরি প্রয়োগ করা একটি কেএস-জাতীয় পরিসংখ্যান বলুন।

মনে রাখবেন যে কেএস পরীক্ষায় এটি ঠিক 'অনুকরণ' করে না, কারণ লেজের জাম্পগুলি কেএসের তুলনায় খুব বড়, উদাহরণস্বরূপ। অন্যদিকে, সংক্ষিপ্ত মানগুলিতে জাম্পগুলি তাদের মধ্যে থাকা সমস্ত মানের জন্য হওয়া উচিত বলে জোর দেওয়া সহজ নয়। বিভিন্ন ওজন / জাম্পগুলির বিভিন্ন ধরণের আই-এর ত্রুটি বৈশিষ্ট্য এবং বিভিন্ন পাওয়ার বৈশিষ্ট্য থাকবে এবং আমি নিশ্চিত নই যে কোনটি বেছে নেওয়া ভাল (সমান মান থেকে কিছুটা আলাদা বেছে নেওয়া তাত্পর্য স্তরের একটি সূক্ষ্ম সেট পেতে সহায়তা করতে পারে)। আমার উদ্দেশ্য, তবে কেবল সাধারণ দেখানো সম্ভব হতে পারে তা দেখানো, কোনও নির্দিষ্ট পদ্ধতির প্রস্তাব না দেওয়া। সংক্ষিপ্তসারগুলির প্রতিটি মানের একটি নির্বিচারে ওজনগুলির সেট এখনও একটি ননপ্যারমেট্রিক পরীক্ষা দেয়, যতক্ষণ না সেগুলি ডেটার রেফারেন্স সহ নেওয়া হয় না।

যাইহোক, এখানে যায়:


সিমুলেশন মাধ্যমে নাল ডিস্ট্রিবিউশন / সমালোচনা মানগুলি সন্ধান করা

দুটি নমুনায় এন = 5 এবং 5 এ, আমাদের বিশেষ কিছু করার দরকার নেই - এটি সরাসরি কেএস পরীক্ষা।

এন = 9 এবং 9 এ আমরা অভিন্ন সিমুলেশন করতে পারি:

 ks9.9 <- replicate(10000,ks.test(fivenum(runif(9)),fivenum(runif(9)))$statistic)
 plot(table(ks9.9)/10000,type="h"); abline(h=0,col=8)

এখানে চিত্র বর্ণনা লিখুন

  # Here's the empirical cdf:
 cumsum(table(ks9.9)/10000)
   0.2    0.4    0.6    0.8 
0.3730 0.9092 0.9966 1.0000 

সুতরাং , আপনি মোটামুটিভাবে ( ) এবং মোটামুটি ( ) পেতে পারেন। (আমাদের সুন্দর আলফা ধাপগুলি আশা করা উচিত নয় When যখন মাঝারি আকারে বড় হয় তবে জন্য খুব বড় বা খুব ছোট পছন্দ ছাড়া আর কিছু না পাওয়ার আশা করা উচিত )।n1=n2=9α=0.1Dcrit=0.6α=0.005Dcrit=0.8nα

n1=9,n2=13 কাছে একটি সুন্দর কাছাকাছি -5% তাত্পর্য স্তর রয়েছে ( )D=0.6

n1=n2=13 এর একটি খুব কাছাকাছি % তাত্পর্য স্তর রয়েছে ( )D=0.6

এর নিকটবর্তী নমুনা আকারে, এই পদ্ধতির ব্যবহারযোগ্য হওয়া উচিত, তবে উভয় গুলি 21 ( এবং ) এর বেশি হলে, এটি মোটেও ভাল কাজ করবে না।nα0.2α0.001

-

একটি খুব 'পরীক্ষা দ্বারা পরীক্ষা'

আমরা দেখলাম যে ক্ষেত্রে প্রায়শই প্রত্যাখ্যানের নিয়ম আসে। কি নমুনা ব্যবস্থা যে নেতৃত্ব? আমি মনে করি নিম্নলিখিত দুটি ক্ষেত্রে:D0.6

(i) যখন একটি নমুনার পুরোটি অন্য দলের মধ্যস্থতার একদিকে থাকে।

(ii) বাক্সগুলি যখন (কোয়ার্টাইলগুলি দ্বারা আচ্ছাদিত রেঞ্জ) ওভারল্যাপ হয় না।

সুতরাং আপনার জন্য একটি দুর্দান্ত সুপার-সরল ননপ্যারমেট্রিক রিজেকশন নিয়ম রয়েছে - তবে নমুনা আকারগুলি 9-10 থেকে খুব বেশি দূরে না থাকলে এটি সাধারণত 'দুর্দান্ত' তাত্পর্য পর্যায়ে থাকবে না।


সম্ভব- স্তরের একটি সূক্ষ্ম সেট পাচ্ছেনα

যাইহোক, অনুরূপ ক্ষেত্রে টেবিল উত্পাদন তুলনামূলকভাবে সহজ হওয়া উচিত। মাঝারি থেকে বড় , এই পরীক্ষার কেবল খুব সামান্য সম্ভাব্য স্তর (বা খুব বড়) থাকবে এবং তাত্পর্যটি সুস্পষ্ট হ'ল ব্যতীত ব্যবহারিক কাজে আসবে না।nα

মজার বিষয় হল, অর্জনযোগ্য pha স্তরগুলি বাড়ানোর এক পদ্ধতির মধ্যে একটি গোলম্ব -শাসকের মতে 'ফাইভনাম' সিডিএফ - এ জাম্পগুলি স্থাপন করা হবে । উদাহরণস্বরূপ, যদি সিডিএফ মানগুলি rac এবং , তবে সিডিএফ-মানগুলির যে কোনও জোড়ার মধ্যে পার্থক্য হবে অন্য কোনও জুটির চেয়ে আলাদা থাকুন। এটি পাওয়ার ক্ষমতার উপর খুব বেশি প্রভাব ফেলে কিনা তা দেখার মতো হতে পারে (আমার ধারণা: সম্ভবত খুব বেশি নয়)।α0,111,411,9111

পরীক্ষাগুলির মতো এই কেএসের তুলনায় আমি অ্যান্ডারসন-ডার্লিংয়ের মতো আরও কিছু শক্তিশালী হওয়ার আশা করছিলাম, তবে এই পাঁচ সংখ্যার সংক্ষিপ্ত মামলার ক্ষেত্রে কীভাবে ওজন করা যায় তা প্রশ্ন। আমি কল্পনা করেছি যে এটি মোকাবেলা করা যেতে পারে, তবে আমি নিশ্চিত নই যে এটি কতটা মূল্যবান।


ক্ষমতা

আসুন দেখুন কীভাবে এটি এ পার্থক্য । এটি সাধারণ ডেটার জন্য একটি পাওয়ার বক্ররেখা এবং ডেল, এর প্রভাবটি হ'ল স্ট্যান্ডার্ড বিচ্যুতিতে দ্বিতীয় নমুনা স্থানান্তরিত হয়:n1=9,n2=13

এখানে চিত্র বর্ণনা লিখুন

এটি বেশ কলুষিত শক্তি কার্ভের মতো মনে হচ্ছে। সুতরাং এটি কমপক্ষে এই ছোট নমুনার আকারগুলিতে ঠিক আছে বলে মনে হচ্ছে।


মজাদার নয়, ননপ্যারমেট্রিকের চেয়ে?

যদি ননপ্যারামেট্রিক পরীক্ষাগুলি এত গুরুত্বপূর্ণ না হয় তবে শক্তিশালী পরীক্ষাগুলি ঠিকঠাক হয় তবে আমরা পরিবর্তে সংক্ষেপে তিনটি চতুর্ভুজ মানের আরও কিছু সরাসরি তুলনা দেখতে পারি যেমন আইকিউআর ভিত্তিতে মধ্যস্থতার জন্য অন্তর এবং নমুনা আকারের ব্যবধান হিসাবে (কিছু নমুনা বিতরণকে ভিত্তি করে যার চারপাশে দৃust়তা কাঙ্ক্ষিত হয় যেমন সাধারণ হিসাবে - উদাহরণস্বরূপ খাঁজযুক্ত বক্স প্লটের পিছনে যুক্তিটি এটি)। এটি ননপ্যারমেট্রিক পরীক্ষার চেয়ে বৃহত নমুনা আকারে আরও ভাল কাজ করার প্রবণতা উচিত যা উপযুক্ত তাত্পর্য স্তরের অভাবে ভুগবে।


1
খুব সুন্দর! আমি অবাক হয়েছি যদি সংক্ষিপ্তসার পরিসংখ্যান দেওয়া হয় তবে আপনি কেএস পরীক্ষার জন্য সর্বাধিক বা ন্যূনতম সম্ভাব্য ডি পরিসংখ্যান গণনা করতে পারেন। উদাহরণস্বরূপ, আপনি সংক্ষিপ্ত পরিসংখ্যানের উপর ভিত্তি করে সিডিএফগুলি আঁকতে পারেন, এবং তারপরে প্রতিটি নমুনা সিডিএফের জন্য পি-বক্স উইন্ডোজ দ্বারা । এই দুটি পি-বাক্স উইন্ডোর উপর ভিত্তি করে আপনি সর্বাধিক বা সর্বনিম্ন সম্ভব ডি পরিসংখ্যান গণনা করতে পারবেন - এবং তারপরে সাধারণ টেবিলে পরীক্ষার পরিসংখ্যানটি সন্ধান করুন।
অ্যান্ডি ডব্লিউ

2

কমপক্ষে কিছু অনুমান না করে কীভাবে এমন পরীক্ষা হতে পারে তা আমি দেখছি না।

আপনার কাছে দুটি পৃথক বিতরণ থাকতে পারে যা একই 5 সংখ্যার সারাংশ রয়েছে:

এখানে একটি তুচ্ছ উদাহরণ, যেখানে আমি কেবল 2 নম্বর পরিবর্তন করি তবে স্পষ্টতই আরও সংখ্যার পরিবর্তন করা যেতে পারে

set.seed(123)

#Create data
x <- rnorm(1000)

#Modify it without changing 5 number summary
x2 <- sort(x)
x2[100] <- x[100] - 1
x2[900] <- x[900] + 1

fivenum(x)
fivenum(x2)

এই উদাহরণটি কেবল এই জাতীয় পদ্ধতির ক্ষমতার সীমাবদ্ধতা প্রদর্শন করে তবে অন্যথায় এটি তেমন আলোকপাত করে বলে মনে হয় না।
হোবার

আমি মনে করি এর অর্থ হ'ল কিছু অনুমান ব্যতিরেকে এ জাতীয় পরীক্ষার শক্তি অনস্বীকার্য। এরকম পরীক্ষার মতো দেখতে কী হতে পারে?
পিটার ফ্লুম - মনিকা পুনরায়

1
পাওয়ার গণনাগুলির জন্য ননপ্যারমেট্রিক পরীক্ষাগুলি সহ সর্বদা অনুমানের প্রয়োজন হবে। আপনি নিজেই পরীক্ষা চালানোর প্রয়োজনের চেয়ে বেশি অনুমান ছাড়াই কোনও কলমোগোরভ-স্মারনভের জন্য পাওয়ার বক্ররেখা সন্ধান করার চেষ্টা করুন।
গ্লেন_বি -রিনস্টেট মনিকা

2
একটি ছোট সীমাবদ্ধ পরীক্ষা রয়েছে যা বিবেচনা করা যেতে পারে: তারা একটি সংক্ষিপ্তসার মানগুলিকে অন্যের সাথে তুলনা করে। এর মধ্যে একটি হ'ল (উদাহরণস্বরূপ) একটি ডেটাসেটের উপরের কব্জির সাথে অন্যের নিম্ন কাঁচের তুলনা। পর্যাপ্ত পরিমাণে নমুনা আকারের জন্য, এটি অন্য জনগোষ্ঠীর তুলনায় এক জনসংখ্যার মধ্যে উল্লেখযোগ্য পার্থক্য নির্দেশ করবে indicate এটা তোলে যৌথ সম্ভাব্যতা এর সাথে সম্পর্কিত করা হয় যে, স্বাধীন র্যান্ডম ভেরিয়েবল জন্য এবং । যদিও আপনি তাত্পর্য স্তরের উপর খুব বেশি নিয়ন্ত্রণ পান না, তবে এই পরীক্ষাগুলি বিকল্পের একটি বিশাল সংখ্যার বিরুদ্ধে যুক্তিসঙ্গতভাবে শক্তিশালী হতে পারে। X>YXY
whuber

@ হুবুহু কোনও পরিমাপ ছাড়াই ত্রুটি বা পরিমাপের সঠিকতা? বা যে নমুনা আকার দ্বারা সরবরাহ করা হয়? কোয়ান্টাইলস এবং আরও বেশি এবং ন্যূনতম, এইভাবে কাজ করা কঠিন।
পিটার ফ্লুম - মনিকা পুনরায়
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.