আমাদের কীভাবে ডেটা শর্তগুলির জন্য নজর রাখা উচিত, যেখানে পি-মানগুলি পরিসংখ্যানিক তাত্পর্যটি নির্ধারণের সেরা উপায় নাও হতে পারে? এই বিভাগে আসা কোনও নির্দিষ্ট ধরণের সমস্যা রয়েছে?
আমাদের কীভাবে ডেটা শর্তগুলির জন্য নজর রাখা উচিত, যেখানে পি-মানগুলি পরিসংখ্যানিক তাত্পর্যটি নির্ধারণের সেরা উপায় নাও হতে পারে? এই বিভাগে আসা কোনও নির্দিষ্ট ধরণের সমস্যা রয়েছে?
উত্তর:
আপনি ডেটা ড্রেজিংয়ের বিষয়ে জিজ্ঞাসা করছেন যা কোনও ডেটা সেটের বিরুদ্ধে খুব বেশি সংখ্যক হাইপোথেসিসের পরীক্ষা করার সময় ঘটে থাকে বা একই ডেটা দ্বারা প্রস্তাবিত ডেটা সেটের বিরুদ্ধে হাইপোথেসিসের পরীক্ষা করার সময় ঘটেছিল।
বিশেষত, একাধিক অনুমানের বিপত্তি এবং ডেটা দ্বারা প্রস্তাবিত পরীক্ষার অনুমান পরীক্ষা করে দেখুন ।
সমাধানটি হ'ল ফলস আবিষ্কারের হার বা ফ্যামিলিওয়াইজ ত্রুটি হারের জন্য কোনও ধরণের সংশোধন ব্যবহার করা , যেমন শেফির পদ্ধতি বা (খুব পুরানো স্কুল) বনফেরোনি সংশোধন ।
কিছুটা কম কঠোর উপায়ে, প্রতিটি পরিসংখ্যানগত ফলাফলের জন্য বিজোড় অনুপাত (ওআর) এর জন্য আস্থার ব্যবধানের মাধ্যমে আপনার আবিষ্কারগুলি ফিল্টার করতে সহায়তা করতে পারে। যদি প্রতিকূলতার অনুপাতের জন্য 99% আত্মবিশ্বাসের ব্যবধানটি 10-12 হয়, তবে ওআর <= 1 হ'ল কিছু অতি সামান্য সম্ভাবনার সাথে, বিশেষত যদি নমুনার আকারও বড় হয়। যদি আপনি এটির মতো কিছু খুঁজে পান তবে এটি লক্ষ লক্ষ অনুমানের পরীক্ষা থেকে বেরিয়ে এলেও এটি সম্ভবত শক্তিশালী প্রভাব।
আপনার প্রসঙ্গের বাইরে পি-মানটি বিবেচনা করা উচিত নয়।
একটি বরং মূল বিষয় ( xkcd দ্বারা চিত্রিত ) হ'ল আপনি আসলে কতগুলি পরীক্ষা নিচ্ছেন তা বিবেচনা করা দরকার। স্পষ্টতই, 20 টির মধ্যে একটির জন্য পি <0.05 দেখতে অবাক হওয়া উচিত নয়, নাল হাইপোথিসিসটি প্রতিবার সত্য হলেও is
এর আরও সূক্ষ্ম উদাহরণ উচ্চ-শক্তি পদার্থবিজ্ঞানে ঘটে এবং এটি অন্য কোথাও প্রভাব হিসাবে পরিচিত । একটি নতুন কণাকে উপস্থাপন করতে পারে এমন সিগন্যালের জন্য আপনি যে প্যারামিটারের স্থানটি অনুসন্ধান করবেন ততই সম্ভবত আপনি একটি আপাত সংকেত দেখতে পাবেন যা সত্যই এলোমেলো ওঠানামার কারণে।
আপনি যে নমুনার আকারটি ব্যবহার করছেন তা হ'ল একটি জিনিস সম্পর্কে আপনার সচেতন হওয়া উচিত। জনগণের ডেটা ব্যবহার করা অর্থনীতিবিদদের মতো খুব বড় নমুনাগুলি পি-মানকে অচল করে দেবে। এই পেপার "খুব বড় থেকে ব্যর্থ: বড় নমুনা এবং p- মান সমস্যা" কিছু বিষয় কভার করে।