পি-ভ্যালু কখন প্রতারক হয়?


14

আমাদের কীভাবে ডেটা শর্তগুলির জন্য নজর রাখা উচিত, যেখানে পি-মানগুলি পরিসংখ্যানিক তাত্পর্যটি নির্ধারণের সেরা উপায় নাও হতে পারে? এই বিভাগে আসা কোনও নির্দিষ্ট ধরণের সমস্যা রয়েছে?


2
চটজলদি উত্তর: প্রায় সর্বদা। প্রকার 1 ত্রুটি তৈরি করার জন্য একটি বিশাল উত্সাহ রয়েছে (অর্থাত "মিথ্যা অ্যালার্ম") যখন বিশ্লেষকরা ডেটা পরীক্ষা করেন, সুতরাং আপনার মুখোমুখি প্রায় সমস্ত পি-মানগুলি "খুব" ছোট small
পরিসংখ্যানরাস

7
কেবল এটি এখানে ফেলে দিচ্ছেন, তবে ক্রস ভ্যালিটেটেডের উপরে এই ধরণের প্রশ্নটি উত্থাপিত হবে না ?
বুড়ুজন মায়ু

1
@ বুরুজায়েমন: হতে পারে। আমি একটি অনুসন্ধান করেছি, এটি সবচেয়ে নিকটতম ম্যাচ: stats.stackexchange.com/questions/67320/… এটিকে স্পর্শ করা মুষ্টিমেয় প্রশ্নের চেয়ে বেশি বলে মনে হয় না।
অ্যালেক্স আমি

উত্তর:


9

আপনি ডেটা ড্রেজিংয়ের বিষয়ে জিজ্ঞাসা করছেন যা কোনও ডেটা সেটের বিরুদ্ধে খুব বেশি সংখ্যক হাইপোথেসিসের পরীক্ষা করার সময় ঘটে থাকে বা একই ডেটা দ্বারা প্রস্তাবিত ডেটা সেটের বিরুদ্ধে হাইপোথেসিসের পরীক্ষা করার সময় ঘটেছিল।

বিশেষত, একাধিক অনুমানের বিপত্তি এবং ডেটা দ্বারা প্রস্তাবিত পরীক্ষার অনুমান পরীক্ষা করে দেখুন

সমাধানটি হ'ল ফলস আবিষ্কারের হার বা ফ্যামিলিওয়াইজ ত্রুটি হারের জন্য কোনও ধরণের সংশোধন ব্যবহার করা , যেমন শেফির পদ্ধতি বা (খুব পুরানো স্কুল) বনফেরোনি সংশোধন

কিছুটা কম কঠোর উপায়ে, প্রতিটি পরিসংখ্যানগত ফলাফলের জন্য বিজোড় অনুপাত (ওআর) এর জন্য আস্থার ব্যবধানের মাধ্যমে আপনার আবিষ্কারগুলি ফিল্টার করতে সহায়তা করতে পারে। যদি প্রতিকূলতার অনুপাতের জন্য 99% আত্মবিশ্বাসের ব্যবধানটি 10-12 হয়, তবে ওআর <= 1 হ'ল কিছু অতি সামান্য সম্ভাবনার সাথে, বিশেষত যদি নমুনার আকারও বড় হয়। যদি আপনি এটির মতো কিছু খুঁজে পান তবে এটি লক্ষ লক্ষ অনুমানের পরীক্ষা থেকে বেরিয়ে এলেও এটি সম্ভবত শক্তিশালী প্রভাব।


1
বোনফেরোনি অবশ্যই পুরাতন স্কুল হলেও এটি এখনও বেশ জনপ্রিয়। এটা সম্পর্কে কিছু একটি পদ্ধতি Šidák সংশোধনী (বলা হয় en.wikipedia.org/wiki/%C5%A0id%C3%A1k_correction )। আমি এটিকে ডাকছি, কারণ আমি কাজ করেছি এমন একটি বৃহত আকারের লক্ষ্যবস্তু বিজ্ঞাপন সিস্টেমে আমরা হিভের ইউডিএফ হিসাবে এই পদ্ধতির প্রয়োগ করতে সক্ষম হয়েছি। তবে এটি কেবলমাত্র পরীক্ষাগুলির মধ্যে স্বাতন্ত্র্য বজায় থাকলে আরও ভাল কাজ করে। না হলে আপনাকে ফিরে যেতে হবে বনফেরোনি বা অন্য কোনও পদ্ধতিতে।
ক্রিস সিমোক্যাট

5

আপনার প্রসঙ্গের বাইরে পি-মানটি বিবেচনা করা উচিত নয়।

একটি বরং মূল বিষয় ( xkcd দ্বারা চিত্রিত ) হ'ল আপনি আসলে কতগুলি পরীক্ষা নিচ্ছেন তা বিবেচনা করা দরকার। স্পষ্টতই, 20 টির মধ্যে একটির জন্য পি <0.05 দেখতে অবাক হওয়া উচিত নয়, নাল হাইপোথিসিসটি প্রতিবার সত্য হলেও is

এর আরও সূক্ষ্ম উদাহরণ উচ্চ-শক্তি পদার্থবিজ্ঞানে ঘটে এবং এটি অন্য কোথাও প্রভাব হিসাবে পরিচিত । একটি নতুন কণাকে উপস্থাপন করতে পারে এমন সিগন্যালের জন্য আপনি যে প্যারামিটারের স্থানটি অনুসন্ধান করবেন ততই সম্ভবত আপনি একটি আপাত সংকেত দেখতে পাবেন যা সত্যই এলোমেলো ওঠানামার কারণে।


2

আপনি যে নমুনার আকারটি ব্যবহার করছেন তা হ'ল একটি জিনিস সম্পর্কে আপনার সচেতন হওয়া উচিত। জনগণের ডেটা ব্যবহার করা অর্থনীতিবিদদের মতো খুব বড় নমুনাগুলি পি-মানকে অচল করে দেবে। এই পেপার "খুব বড় থেকে ব্যর্থ: বড় নমুনা এবং p- মান সমস্যা" কিছু বিষয় কভার করে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.