আমি প্রতিদিন খুব বড় নমুনাগুলি (> 1,000,000) শ্রেণীবদ্ধ ডেটা সংগ্রহ করি এবং ডেটা সংগ্রহের ত্রুটিগুলি সনাক্ত করতে ডেটা দিনের মধ্যে "উল্লেখযোগ্যভাবে" আলাদা বলে দেখতে চাই।
আমি ভেবেছিলাম একটি ভাল-ফিট-টেস্ট পরীক্ষা করা (বিশেষত, একটি জি-পরীক্ষা) এর জন্য ভাল ফিট (পাং উদ্দেশ্যযুক্ত) হবে। আগের দিন বিতরণ দ্বারা প্রত্যাশিত বিতরণ দেওয়া হয়।
তবে, যেহেতু আমার নমুনা আকারগুলি এত বড়, পরীক্ষার খুব উচ্চ ক্ষমতা রয়েছে এবং এটি অনেকগুলি মিথ্যা ধনাত্মকতা দেয়। এটি বলার জন্য, এমনকি খুব সামান্য দৈনিক ওঠানামাও একটি কাছাকাছি-শূন্য পি-মান দেবে give
আমি আমার পরীক্ষার পরিসংখ্যানগুলিকে কিছু ধ্রুবক (0.001) দ্বারা গুণ করে শেষ করেছি, যার সেই হারে ডেটা স্যাম্পল করার চমৎকার ব্যাখ্যা রয়েছে। এই নিবন্ধটি এই পদ্ধতির সাথে একমত বলে মনে হচ্ছে। তারা বলল যে:
প্রায় 100 থেকে 2500 জনের মধ্যে নমগুলির সাথে চি স্কোয়ারটি সবচেয়ে নির্ভরযোগ্য
আমি এই সম্পর্কে আরও কিছু অনুমোদনমূলক মন্তব্য খুঁজছি। অথবা বড় ডেটা সেটগুলিতে পরিসংখ্যান পরীক্ষা চালানোর সময় ভুয়া পজিটিভ সম্পর্কিত কিছু বিকল্প সমাধান।