নাল অনুমানের অধীনে যে বিতরণগুলি একই রকম এবং উভয় নমুনা এলোমেলোভাবে এবং স্বতন্ত্রভাবে সাধারণ বিতরণ থেকে প্রাপ্ত হয়, আমরা সমস্ত (নির্ধারক) পরীক্ষার আকারগুলি নিয়ে কাজ করতে পারি যা একটি বর্ণের সাথে অন্য বর্ণের সাথে তুলনা করে তৈরি করা যেতে পারে । এর মধ্যে কয়েকটি পরীক্ষায় বিতরণের পার্থক্য সনাক্ত করার যুক্তিসঙ্গত ক্ষমতা রয়েছে বলে মনে হয়।5×5
বিশ্লেষণ
সংখ্যার ব্যাচের লেটার সংক্ষিপ্তসারটির মূল সংজ্ঞাটি নিম্নলিখিত [টুকি ইডিএ 1977]:5x1≤x2≤⋯≤xn
যে কোনও সংখ্যার জন্য এ সংজ্ঞায়িত করুন{ ( 1 + 2 ) / 2 , ( 2 + 3 ) / 2 , … , ( এন - 1 + এন ) / 2 } এক্স এম = ( এক্স আই + এক্স i + 1 ) / 2।m=(i+(i+1))/2{(1+2)/2,(2+3)/2,…,(n−1+n)/2}xm=(xi+xi+1)/2.
যাক ।i¯=n+1−i
এবং চলুনজ = ( ⌊ মি ⌋ + + 1 ) / 2।m=(n+1)/2h=(⌊m⌋+1)/2.
-letter সারসংক্ষেপ সেট তার উপাদান হিসাবে পরিচিত হয় সর্বনিম্ন, নিম্ন কবজা, মধ্যমা, বড় হাতের কবজা, এবং সর্বোচ্চ, যথাক্রমে।{ এক্স - = x 1 , এইচ - = এক্স এইচ , এম = এক্স এম , এইচ + = এক্স ˉ এইচ , এক্স + = এক্স এন } ।5{X−=x1,H−=xh,M=xm,H+=xh¯,X+=xn}.
উদাহরণস্বরূপ, ডেটা ব্যাচে আমরা সেই , এবং গণনা করতে পারি , কোথা থেকে(−3,1,1,2,3,5,5,5,7,13,21)n=12m=13/2h=7/2
X−H−MH+X+=−3,=x7/2=(x3+x4)/2=(1+2)/2=3/2,=x13/2=(x6+x7)/2=(5+5)/2=5,=x7/2¯¯¯¯¯¯¯¯=x19/2=(x9+x10)/2=(5+7)/2=6,=x12=21.
কব্জাগুলি চতুর্ভুজগুলির কাছাকাছি (তবে সাধারণত ঠিক একই রকম হয় না)। কোয়ার্টাইলগুলি ব্যবহার করা থাকলে নোট করুন যে সাধারণভাবে তারা দুটি পরিসংখ্যানের গাণিতিক উপায়ে হবে এবং এর ফলে একটি মধ্যে থাকবে যেখানে এবং অ্যালগরিদম থেকে নির্ধারণ করতে পারি কোয়ার্টাইলগুলি গণনা করতে ব্যবহৃত হত। সাধারণত, একটি বিরতি হয় আমি ঢিলেঢালাভাবে লিখতে হবে কিছু যেমন ভরযুক্ত গড় উল্লেখ করতে এবং ।i n q [ i , i + 1 ] x q x i x i + 1[xi,xi+1]inq[i,i+1]xqxixi+1
দুটি ব্যাচের ডেটা এবং দুটি পৃথক পাঁচ অক্ষরের সংক্ষিপ্তসার রয়েছে। আমরা নাল অনুমানটি পরীক্ষা করতে পারি যে উভয়ই letters এর মধ্যে একটি letters সাথে তুলনা করে একটি সাধারণ বিতরণ র্যান্ডম নমুনা । উদাহরণ হিসেবে বলা যায়, আমরা উপরের কবজা তুলনা পারে নিচের কবজা করার কি না দেখার জন্য অনুক্রমে তুলনায় উল্লেখযোগ্যভাবে কম । এটি একটি নির্দিষ্ট প্রশ্নের দিকে নিয়ে যায়: কীভাবে এই সুযোগটি গণনা করতে হবে,( y j , j = 1 , … , m ) , F x x q y y r x y x y(xi,i=1,…,n)(yj,j=1,…,m),Fxxqyyrxyxy
PrF(xq<yr).
ভগ্নাংশের এবং জন্য না জেনে সম্ভব নয় । তবে, কারণ এবং তারপরে একটি ফোরটিওরিqrFxq≤x⌈q⌉y⌊r⌋≤yr,
PrF(xq<yr)≤PrF(x⌈q⌉<y⌊r⌋).
আমরা ততক্ষণে ডান হাতের সম্ভাবনা গণনা করে কাঙ্ক্ষিত সম্ভাবনার উপর সর্বজনীন ( স্বতন্ত্র ) উপরের সীমাগুলি অর্জন করতে পারি , যা পৃথক অর্ডার পরিসংখ্যানের সাথে তুলনা করে। আমাদের সামনে সাধারণ প্রশ্নF
সুযোগ যে কি সর্বোচ্চ মান চেয়ে কম হবে সর্বোচ্চ মান একটি সাধারণ বিতরণ থেকে IID টানা?qthnrthm
এমনকি এটির সর্বজনীন উত্তর নেই যতক্ষণ না আমরা সম্ভাবনাটি অত্যধিকভাবে পৃথক মূল্যবোধগুলিতে কেন্দ্রীভূত হওয়ার সম্ভাবনাটি অস্বীকার করি: অন্য কথায়, আমাদের ধরে নেওয়া দরকার যে সম্পর্কগুলি সম্ভব নয়। এর অর্থ অবশ্যই একটি অবিচ্ছিন্ন বিতরণ হতে হবে। যদিও এটি একটি অনুমান, এটি একটি দুর্বল এবং এটি প্যারামিট্রিক নয়।F
সমাধান
গণনাতে ডিস্ট্রিবিউশন কোনও ভূমিকা রাখে না, কারণ সম্ভাব্যতা রূপান্তর করে মাধ্যমে সমস্ত মান পুনরায় প্রকাশ করার পরে , আমরা নতুন ব্যাচগুলি পাইFF
X(F)=F(x1)≤F(x2)≤⋯≤F(xn)
এবং
Y(F)=F(y1)≤F(y2)≤⋯≤F(ym).
তদুপরি, এই পুনরায় একঘেয়েমি এবং ক্রমবর্ধমান: এটি শৃঙ্খলা সংরক্ষণ করে এবং এর ফলে ইভেন্টটি সংরক্ষণ করে যেহেতু অবিচ্ছিন্ন, এই নতুন ব্যাচগুলি ইউনিফর্ম বিতরণ থেকে আঁকা । এই বিতরণের অধীনে - এবং স্বরলিপিটি থেকে এখন অতিরিক্ত " " বাদ দেওয়া - আমরা সহজেই দেখতে যে এর একটি বিটা = বিটা বিতরণ রয়েছে:xq<yr.F[0,1]Fxq(q,n+1−q)(q,q¯)
Pr(xq≤x)=n!(n−q)!(q−1)!∫x0tq−1(1−t)n−qdt.
একইভাবে এর বিতরণ হ'ল বিটা । অঞ্চলে দ্বিগুণ সংহতকরণ সম্পাদন করে আমরা কাঙ্ক্ষিত সম্ভাবনা অর্জন করতে পারি,yr(r,m+1−r)xq<yr
Pr(xq<yr)=Γ(m+1)Γ(n+1)Γ(q+r)3F~2(q,q−n,q+r; q+1,m+q+1; 1)Γ(r)Γ(n−q+1)
যেহেতু সমস্ত মান অবিচ্ছেদ্য, সমস্ত মানগুলি সত্যই নিখরচেত্র: ইন্টিগ্রাল
এর জন্য অল্প-পরিচিত ফাংশন একটি নিয়মিত হাইপারজেমেট্রিক ফাংশন । এক্ষেত্রে এটি দৈর্ঘ্যের একটি সহজ সরল বিকল্প হিসাবে গণনা করা যেতে পারে দৈর্ঘ্যের কিছু ফ্যাকটোরিয়াল দ্বারা সাধারণ:n,m,q,rΓΓ(k)=(k−1)!=(k−1)(k−2)⋯(2)(1)k≥0.3F~2n−q+1
Γ(q+1)Γ(m+q+1) 3F~2(q,q−n,q+r; q+1,m+q+1; 1)=∑i=0n−q(−1)i(n−qi)q(q+r)⋯(q+r+i−1)(q+i)(1+m+q)(2+m+q)⋯(i+m+q)=1−(n−q1)q(q+r)(1+q)(1+m+q)+(n−q2)q(q+r)(1+q+r)(2+q)(1+m+q)(2+m+q)−⋯.
এটি সম্ভাবনার গণনাটিকে সংযোজন, বিয়োগ, গুণ এবং বিভাগের চেয়ে জটিল কিছুতে কমিয়েছে। গণনার প্রচেষ্টা হিসাবে স্কেল করে প্রতিসাম্য কাজে লাগিয়েO((n−q)2).
Pr(xq<yr)=1−Pr(yr<xq)
নতুন গণনাটি as হিসাবে স্কেল করে আমরা যদি ইচ্ছা করি তবে দুটি পরিমাণের মধ্যে আরও সহজ চয়ন করতে পারি allowing এটি খুব কমই প্রয়োজনীয় হবে, যদিও, লেটারের সংক্ষিপ্তসারগুলি কেবলমাত্র ছোট ব্যাচগুলির জন্য ব্যবহৃত হয়, খুব কমইO((m−r)2),5n,m≈300.
আবেদন
ধরুন, দুটি ব্যাচের আকার এবং । জন্য প্রাসঙ্গিক অর্ডার পরিসংখ্যান এবং হয় এবং যথাক্রমে। এখানে সুযোগ একটা টেবিল যে সঙ্গে সারি ইন্ডেক্স এবং কলাম ইন্ডেক্স:n=8m=12xy1,3,5,7,81,3,6,9,12,xq<yrqr
q\r 1 3 6 9 12
1 0.4 0.807 0.9762 0.9987 1.
3 0.0491 0.2962 0.7404 0.9601 0.9993
5 0.0036 0.0521 0.325 0.7492 0.9856
7 0.0001 0.0032 0.0542 0.3065 0.8526
8 0. 0.0004 0.0102 0.1022 0.6
একটি সাধারণ সাধারণ বিতরণ থেকে 10,000 আইডির নমুনা জোড়াগুলির সিমুলেশন এগুলির কাছাকাছি ফলাফল দেয়।
ব্যাচটি ব্যাচের চেয়ে উল্লেখযোগ্যভাবে কম কিনা তা নির্ধারণ করতে সাইজ যেমন এ একতরফা পরীক্ষা তৈরি করতে , এই টেবিলের মানগুলি কাছাকাছি বা ঠিক নীচে সন্ধান । ভাল পছন্দ হয় যেখানে সুযোগ এ একটি সুযোগ , এবং একটি সুযোগ কোনটি ব্যবহার করবেন তা বিকল্প অনুমানের বিষয়ে আপনার ধারণার উপর নির্ভর করে। উদাহরণস্বরূপ, পরীক্ষাটি নিম্ন কব্জাকে এর ক্ষুদ্রতম মানের সাথে তুলনা করেα,α=5%,xyα(q,r)=(3,1),0.0491,(5,3)0.0521(7,6)0.0542.(3,1)xy এবং যখন একটি নিম্নের কবজটি ছোট হয় তখন একটি উল্লেখযোগ্য পার্থক্য খুঁজে পায়। এই পরীক্ষাটি চরম মানের সংবেদনশীল ; যদি বহির্মুখী ডেটা সম্পর্কে কিছু উদ্বেগ থাকে তবে এটি চয়ন করা ঝুঁকিপূর্ণ পরীক্ষা হতে পারে। অন্যদিকে পরীক্ষা উপরের কবজা তুলনা মধ্যমা থেকে । এই এক আউটলায়িং মান খুব জোরালো হয় ব্যাচ এবং পরিমিতরূপে মধ্যে outliers জোরালো । তবে এটি মধ্যমানের মানকে এর মধ্যমানের সাথে তুলনা করে । যদিও এটি সম্ভবত তুলনায় ভাল তুলনা, এটি কেবল দুটি লেজের মধ্যে যে বিতরণগুলি ঘটে তা সনাক্ত করতে পারে না।y(7,6)xyyxxy
বিশ্লেষণাত্মকভাবে এই সমালোচনামূলক মানগুলি গণনা করতে সক্ষম হওয়া একটি পরীক্ষা নির্বাচন করতে সহায়তা করে। একবার একটি (বা বেশ কয়েকটি) পরীক্ষা সনাক্ত করা গেলে, পরিবর্তনগুলি সনাক্ত করার তাদের শক্তি সম্ভবত সিমুলেশনের মাধ্যমে সর্বোত্তম মূল্যায়ন করা হয়। বিতরণ কীভাবে পৃথক হবে তার উপরে শক্তি নির্ভর করবে। এই পরীক্ষাগুলির আদৌ কোনও শক্তি আছে কি না তা অনুধাবন করার জন্য, আমি একটি সাধারণ বিতরণ থেকে অঙ্কিত সাথে পরীক্ষাটি : অর্থাৎ, এর মধ্যকটি একটি স্ট্যান্ডার্ড বিচ্যুতি দ্বারা স্থানান্তরিত হয়েছিল। একটি সিমুলেশন সময়ে পরীক্ষাটি ছিল significant : যা এই ছোট ডেটাসেটের জন্য প্রশংসনীয় শক্তি।(5,3)yj(1,1)54.4%
আরও অনেক কিছু বলা যায়, তবে এগুলির সবগুলি দ্বিমুখী পরীক্ষা পরিচালনা করা সম্পর্কে কীভাবে প্রভাবগুলির আকারগুলি নির্ধারণ করতে হবে ইত্যাদি stuff মূল বিষয়টি প্রদর্শিত হয়েছে: দুটি ব্যাচের তথ্যের লেটার সংক্ষিপ্তসারগুলি (এবং আকারগুলি) দেওয়া হলে তাদের অন্তর্নিহিত জনসংখ্যার পার্থক্য সনাক্ত করার জন্য যুক্তিসঙ্গতভাবে শক্তিশালী নন-প্যারাম্যাট্রিক পরীক্ষাগুলি তৈরি করা সম্ভব5 এবং অনেক ক্ষেত্রে আমাদের এমনকি অনেকগুলি থাকতে পারে পরীক্ষার পছন্দ থেকে নির্বাচন করা। এখানে বিকশিত তত্ত্বটি তাদের নমুনাগুলি থেকে সঠিকভাবে নির্বাচিত আদেশের পরিসংখ্যানের মাধ্যমে দুটি জনসংখ্যার তুলনা করার জন্য বিস্তৃত অ্যাপ্লিকেশন রয়েছে (কেবলমাত্র তারা যারা অক্ষরের সংক্ষিপ্তসারগুলি প্রায় অনুমান করে না)।
এই ফলাফলগুলিতে অন্যান্য দরকারী অ্যাপ্লিকেশন রয়েছে। উদাহরণস্বরূপ, একটি বক্সপ্লট -letter সারাংশের একটি গ্রাফিকাল চিত্রণ । সুতরাং, একটি বক্সপ্লট দেখানো নমুনা আকারের জ্ঞানের পাশাপাশি, আমাদের এই প্লটগুলির দৃশ্যমান পার্থক্যের তাত্পর্য নিরূপণের জন্য আমাদের অনেকগুলি সহজ পরীক্ষা (একটি বাক্সের অংশগুলির তুলনা এবং অন্যটির সাথে হুইস্কারের উপর ভিত্তি করে) উপলব্ধ রয়েছে।5