কোলমোগোরভ – স্মিমনভ পরীক্ষা: নমুনার আকার বাড়ার সাথে সাথে পি-মান এবং কে-টেস্টের পরিসংখ্যান হ্রাস পায়


12

নমুনার আকার বৃদ্ধির সাথে কেন পি-মান এবং কে-পরীক্ষার পরিসংখ্যান হ্রাস পাবে? এই পাইথন কোডটিকে উদাহরণ হিসাবে ধরুন:

import numpy as np
from scipy.stats import norm, ks_2samp
np.random.seed(0)
for n in [10, 100, 1000, 10000, 100000, 1000000]:
  x = norm(0, 4).rvs(n)
  y = norm(0, 4.1).rvs(n)
  print ks_2samp(x, y)

ফলাফলগুলি হ'ল:

Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508)
Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247)
Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662)
Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896)
Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855)
Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19)

স্বজ্ঞাতভাবে আমি বুঝতে পারি যে এন বাড়ার সাথে সাথে পরীক্ষাটি "আরও নিশ্চিত" যে দুটি বিতরণ আলাদা। তবে যদি নমুনার আকারটি খুব বড় হয় তবে এর মতো মিলগুলির পরীক্ষায় বিন্দুটি কী বলে এবং অ্যান্ডারসন ডার্লিং পরীক্ষা বা টি-টেস্ট বলে, কারণ এই জাতীয় ক্ষেত্রে যখন এন খুব বড় হয়, তখন বিতরণগুলি সর্বদা পাওয়া যায় "উল্লেখযোগ্যভাবে" আলাদা !? এখন আমি ভাবছি পৃথিবীতে পি-মানগুলির বিন্দুটি কী। এটি নমুনার আকারের উপর এতটা নির্ভর করে ... পি> 0.05 এবং আপনি যদি এটি কম রাখতে চান তবে আরও ডেটা পান; এবং যদি পি <0.05 থাকে এবং আপনি এটি উচ্চতর হতে চান তবে কিছু তথ্য সরিয়ে ফেলুন।

এছাড়াও, যদি দুটি বিতরণ একরকম হয়, তবে কেএস-পরীক্ষার পরিসংখ্যান 0 এবং p- মান 1 হবে। তবে আমার উদাহরণে, ns কেস-পরীক্ষার পরিসংখ্যান বৃদ্ধি করার সাথে সাথে বিতরণ সময়ের সাথে আরও বেশি একইরকম হওয়ার হ্রাস পায় (হ্রাস) , কিন্তু পি-মান অনুসারে তারা সময়ের সাথে আরও বেশি এবং আলাদা হয়ে যায় (এছাড়াও হ্রাসও পায়)।


দেখুন স্বাভাবিকতা পরীক্ষা করা কি 'প্রয়োজনীয়ভাবে অকেজো'? । আপনি যা বলছেন তা পুরোপুরি সত্য নয় নোট করুন: বিতরণগুলি যদি বাস্তবে অভিন্ন হয় তবে আপনি নমুনার আকার বাড়ানোর পরেও পি-মানটির বিতরণ অভিন্ন থাকে।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

2
আমার একটি সমস্যা হতে পারে যা এটির সাথে সম্পর্কিত হতে পারে: stats.stackexchange.com/questions/301628/… এটি আমাকে এই পরীক্ষার বিষয়ে সত্যই সন্দেহজনক করে তুলেছিল
আলেকসান্দার জোভানোভিচ

এটি সত্য, যথেষ্ট ডেটা সহ, আপনি নির্ধারণ করতে পারেন যে নির্বিচারে ছোট, তবে শূন্য নয়, প্রভাব আকারগুলি পরিসংখ্যানগতভাবে গুরুত্বপূর্ণ। এখানে কীটি হল পরিসংখ্যানগত তাত্পর্য এবং ব্যবহারিক তাত্পর্যগুলির মধ্যে পার্থক্যটি স্বীকৃতি। হোমার সিম্পসনকে ভুলভাবে জিজ্ঞাসা করতে, "আপনি দূর থেকে সত্য যা কিছু প্রমাণ করতে আপনি পি-মান ব্যবহার করতে পারেন"।
পারমাণবিক ওয়াং

উত্তর:


5

পরীক্ষার পরিসংখ্যান হ্রাস পায় কারণ আপনার বিতরণগুলি খুব অনুরূপ এবং বৃহত্তর নমুনাগুলিতে কম শব্দ রয়েছে। আপনি যে দুটি তাত্ত্বিক বিতরণ ব্যবহার করেছেন তা যদি তুলনা করতে হয় তবে আপনার "সত্য" কেএস পরিসংখ্যান পাওয়া উচিত। আপনি আরও ডেটা যুক্ত করার সাথে সাথে আপনার আনুমানিক কেএস পরিসংখ্যানগুলি এই সত্য মানের কাছে যেতে হবে। যাইহোক, আপনার কেএস পরিসংখ্যান হ্রাস পাওয়ার সাথে সাথে আপনার আত্মবিশ্বাস বৃদ্ধি পেয়েছে যে এগুলি আসলে দুটি পৃথক বিতরণ (অর্থাত্ পি-মান হ্রাস) কারণ পৃথক বিতরণের আপনার অনুমানের উপর আপনার বেশি আস্থা রয়েছে।


3

একটি ব্যবহারিক নোটে: আরও ডেটা পাওয়া এত সহজ নয় (আমি এটি দেখতে চাইতাম)। শুধু পেতে ডাটা মুছে ফেলা হচ্ছেপি- আপনি যে মূল্য চান তা হল একাডেমিক জালিয়াতি এবং আপনি যদি ধরা পড়েন তবে আপনি সমস্যায় পড়েছেন।

তবুও, আপনি ঠিক বলেছেন যে পিনিজস্ব মূল্য সীমিত মূল্য হয়। সর্বোপরি এটি আপনার বিশ্লেষণের শুরু এবং অবশ্যই শেষ নয়। আরও জানতে এএসএ-র বিবৃতি দেখুনপি-values


রেফারেন্সের জন্য ধন্যবাদ, তবে কেন এখনও কেএস-পরীক্ষার পরিসংখ্যান বৃহত্তর এন হ্রাস করে তা সম্পর্কে আমি নিশ্চিত নই।
অলিভার অ্যাঞ্জেলিল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.