"বুনোতে" পি-হ্যাকিং সম্পর্কে আমরা কতটা জানি?


94

ফ্রেজ পি -hacking (এছাড়াও: "তথ্য ড্রেজিং" , "গোপনে ভেদ" বা "মাছধরা"), যা কৃত্রিমভাবে পরিসংখ্যানগত ভাবে উল্লেখযোগ্য হয়ে ফলাফল পরিসংখ্যানগত কদাচার বিভিন্ন ধরণের বোঝায়। একটি "আরও উল্লেখযোগ্য" ফলাফল সংগ্রহের অনেকগুলি উপায় রয়েছে, এতে অন্তর্ভুক্ত তবে কোনওভাবেই সীমাবদ্ধ নয়:

  • কেবলমাত্র তথ্যের একটি "আকর্ষণীয়" উপসেট বিশ্লেষণ , যাতে একটি প্যাটার্ন পাওয়া গেছে;
  • একাধিক পরীক্ষার জন্য যথাযথভাবে সামঞ্জস্য করতে ব্যর্থ , বিশেষত পোস্ট-হক টেস্টিং এবং টেস্টগুলি যেগুলি উল্লেখযোগ্য ছিল না সেগুলি রিপোর্ট করতে ব্যর্থ হয়েছে;
  • একই অনুমানের বিভিন্ন পরীক্ষা করে দেখতে পারা , যেমন প্যারামেট্রিক এবং একটি নন-প্যারামেট্রিক পরীক্ষা ( এই থ্রেডে এর কিছুটা আলোচনা আছে ), তবে কেবল সর্বাধিক তাৎপর্যপূর্ণ প্রতিবেদন করা;
  • পছন্দসই ফলাফল প্রাপ্ত হওয়া অবধি ডেটা পয়েন্টের অন্তর্ভুক্তি / বর্জন নিয়ে পরীক্ষা করা । "ডেটা-ক্লিনিং আউটলিয়ার্স" যখন আসে তখন একটি সুযোগ আসে, তবে একটি অস্পষ্ট সংজ্ঞা প্রয়োগ করার সময়ও (যেমন "উন্নত দেশসমূহ" এর একনোমেট্রিক স্টাডিতে, বিভিন্ন সংজ্ঞা দেশগুলির বিভিন্ন সেট দেয়) বা গুণগত অন্তর্ভুক্তির মানদণ্ড (যেমন মেটা-বিশ্লেষণে) , এটি একটি সূক্ষ্ম সুষম যুক্তি হতে পারে যে কোনও নির্দিষ্ট অধ্যয়নের পদ্ধতিটি অন্তর্ভুক্ত করার পক্ষে যথেষ্ট দৃ rob় নয়);
  • পূর্ববর্তী উদাহরণটি alচ্ছিক থামার সাথে সম্পর্কিত , অর্থাত্ একটি ডেটাসেট বিশ্লেষণ করে এবং এখন পর্যন্ত সংগৃহীত ডেটার উপর নির্ভর করে আরও ডেটা সংগ্রহ করবেন কিনা তা সিদ্ধান্ত নেওয়ার সাথে ("এটি প্রায় তাৎপর্যপূর্ণ, আসুন আমরা আরও তিনজন শিক্ষার্থীকে পরিমাপ করি!") এর জন্য অ্যাকাউন্টিং না করেই বিশ্লেষণে;
  • মডেল- ফিটিংয়ের সময় পরীক্ষামূলকভাবে অন্তর্ভুক্ত করার জন্য বিশেষত কোভেরিয়ट्स, তবে ডেটা ট্রান্সফর্মেশন / ফাংশনাল ফর্ম সম্পর্কিত।

সুতরাং আমরা জানি পি- হ্যাকিং করা যেতে পারে। এটি প্রায়শই " পি- মূল্যের অন্যতম বিপদ" হিসাবে তালিকাভুক্ত হয় এবং পরিসংখ্যানগত তাত্পর্য সম্পর্কিত এএসএ রিপোর্টে উল্লেখ করা হয়েছিল, এখানে ক্রস ভ্যালিডেটে আলোচনা করা হয়েছে , সুতরাং আমরা এটিও জানি যে এটি একটি খারাপ বিষয়। যদিও কিছু সন্দেহজনক প্রেরণা এবং (বিশেষত একাডেমিক প্রকাশনার প্রতিযোগিতায়) পাল্টা উত্পাদক প্রেরণাগুলি সুস্পষ্ট, আমি সন্দেহ করি যে এটি কেন হয়েছে , ইচ্ছাকৃত অপব্যবহার বা সরল অজ্ঞতা তা নির্ধারণ করা শক্ত hard কেউ রিপোর্ট পি একটি ধাপে ধাপে রিগ্রেশনের থেকে -values (কারণ তারা ধাপে ধাপে পদ্ধতি খুঁজে "ভালো মডেল উত্পাদন", কিন্তু অতিরঞ্জিত সচেতন নয় পি-values অকার্যকর ও বাতিল) আধুনিক শিবিরে হয়, কিন্তু এর প্রভাব এখনও পি উপরে আমার বুলেট পয়েন্ট শেষ অধীনে -hacking।

পি- হ্যাকিং "সেখানে আছে" এর অবশ্যই প্রমাণ রয়েছে, উদাহরণস্বরূপ হেড এট আল (২০১৫) এর বৈজ্ঞানিক সাহিত্যে সংক্রামিত হওয়ার সংক্ষিপ্ত চিহ্নগুলি সন্ধান করে, তবে এটি সম্পর্কে আমাদের প্রমাণ ভিত্তির বর্তমান অবস্থা কী? আমি সচেতন যে হেড এট আল দ্বারা গৃহীত পদ্ধতিটি কোনও বিতর্ক ছাড়াই ছিল না, সুতরাং সাহিত্যের বর্তমান অবস্থা বা একাডেমিক সম্প্রদায়ের সাধারণ চিন্তাভাবনা আকর্ষণীয় হবে। উদাহরণস্বরূপ আমাদের এ সম্পর্কে কোনও ধারণা আছে:

  • এটি কতটা প্রচলিত এবং আমরা কতটা প্রকারে প্রকাশের পক্ষপাতিত্ব থেকে আলাদা করতে পারি ? (এই পার্থক্য কি অর্থপূর্ণ?)
  • প্রভাবটি কি সীমানায় বিশেষত তীব্র হয় ? উদাহরণস্বরূপ, এ কি একইরকম প্রভাব দেখা যায় , বা আমরা কি পি- মূল্যগুলির পুরো পরিসীমা প্রভাবিত দেখতে পাই ?পি 0.01p0.05p0.01
  • পি- হ্যাকিংয়ের নিদর্শনগুলি কি একাডেমিক ক্ষেত্রগুলির মধ্যে পৃথক হয়?
  • আমাদের কী ধারণা আছে যে পি- হ্যাকিংয়ের কোন পদ্ধতি (উপরের বুলেট পয়েন্টগুলিতে কিছু তালিকাভুক্ত রয়েছে) সবচেয়ে সাধারণ? অন্যদের চেয়ে কিছু ফর্ম সনাক্ত করা আরও কঠিন প্রমাণিত হয়েছে কারণ সেগুলি "আরও ভাল ছদ্মবেশী"?

তথ্যসূত্র

হেড, এমএল, হলম্যান, এল।, ল্যানফিয়ার, আর।, কাহান, এটি, এবং জেনিয়নস, এমডি (2015)। বিজ্ঞানে পি- হ্যাকিংয়ের ব্যাপ্তি এবং পরিণতিপিএলওএস বায়োল , 13 (3), ই 1002106।


6
আপনার শেষ প্রশ্নটি একটি গবেষণার জন্য একটি দুর্দান্ত ধারণা: একদল গবেষককে বিভিন্ন ক্ষেত্র তৈরি করে কিছু কাঁচা তথ্য দিন, এসপিএসএসে সজ্জিত করুন (বা যা কিছু তারা ব্যবহার করুন) এবং তারপরে আরও উল্লেখযোগ্য ফলাফলের জন্য প্রতিযোগিতা করার সময় তারা কী করছে তা রেকর্ড করুন ।
টিম

1
কেগল সাবমিশনের ইতিহাস ব্যবহার করে এটি ঘটছে তা জেনেও কেউ এটি করতে সক্ষম হতে পারে। তারা প্রকাশ করছে না, তবে যাদু নম্বরটি হিট করার জন্য তারা যথাসাধ্য চেষ্টা করছে।
এনগ্রি স্টুডেন্ট

1
ক্রসওলয়েটেডের পি-হ্যাকিংয়ের সাধারণ সিমুলেশন উদাহরণগুলির কোনও সংগ্রহ (যেমন সম্প্রদায় উইকিস) রয়েছে? আমি খেলনার উদাহরণগুলিতে কল্পনা করছি যেখানে সিমুলেটেড গবেষক আরও তথ্য উপাত্ত সংগ্রহ, রিগ্রেশন স্পেসিফিকেশন ইত্যাদির মাধ্যমে পরীক্ষাগুলি ইত্যাদির মাধ্যমে "প্রান্তিক উল্লেখযোগ্য" ফলাফলের প্রতিক্রিয়া দেখান
অ্যাড্রিয়ান

2
@ অ্যাড্রিয়ান সিভি হ'ল একটি প্রশ্নোত্তর সাইট, এটিতে কোনও তথ্য, বা কোড নেই, কোনও গোপন ভান্ডার নেই - উত্তরগুলিতে আপনি যা সন্ধান করেন তা সিসি লাইসেন্সের অধীনে আপনার মনে হয় :) এই প্রশ্নটি এই জাতীয় উদাহরণ সংগ্রহ করার বিষয়ে জিজ্ঞাসা করছে বলে মনে হয়।
টিম

1
@ টিম অবশ্যই, আমি কোনও লুকানো কোড রেপোর কল্পনা করছিলাম না - উত্তরের অন্তর্ভুক্ত কেবল কোড স্নিপেট। উদাহরণস্বরূপ, কেউ জিজ্ঞাসা করতে পারেন "পি-হ্যাকিং কী?", এবং কেউ তাদের উত্তরে খেলনা আর সিমুলেশন অন্তর্ভুক্ত করতে পারে। কোড উদাহরণ সহ বর্তমান প্রশ্নের উত্তর দেওয়া কি উপযুক্ত হবে? "আমরা কতটা জানি" খুব বিস্তৃত প্রশ্ন।
অ্যাড্রিয়ান

উত্তর:


76

এক্সিকিউটিভ সংক্ষিপ্তসার: "পি-হ্যাকিং" যদি একটি লা গেলম্যানের কাঁটাচলা পথকে বিস্তৃতভাবে বোঝা যায় তবে এটি কতটা প্রচলিত, তার উত্তর এটি প্রায় সর্বজনীন।


অ্যান্ড্রু গেলম্যান এই বিষয়ে লিখতে পছন্দ করেন এবং ইদানীং এটি তার ব্লগে ব্যাপকভাবে পোস্ট করা হয়েছে। আমি সবসময় তার সাথে একমত হই না তবে হ্যাকিংয়ের ক্ষেত্রে আমি তার দৃষ্টিভঙ্গি পছন্দ করি। এখানে তার গার্ডেন অফ ফোর্কিং পাথস পেপারের পরিচিতির একটি অংশ (গেলম্যান অ্যান্ড লোকেন 2013; আমেরিকান সায়েন্টিস্ট 2014 এ একটি সংস্করণ প্রকাশিত হয়েছে; এএসএ'র বক্তব্য সম্পর্কে জেলম্যানের সংক্ষিপ্ত মন্তব্য দেখুন ), জোর দেওয়া খনি:p

এই সমস্যাটিকে কখনও কখনও "পি-হ্যাকিং" বা "স্বাধীনতার গবেষক ডিগ্রি" বলা হয় (সিমন্স, নেলসন, এবং সিমোনসোহান, ২০১১)। সাম্প্রতিক একটি নিবন্ধে, আমরা "ফিশিং অভিযান [...]" বলেছি। তবে আমরা অনুভব করতে শুরু করি যে "ফিশিং" শব্দটি দুর্ভাগ্যজনক, কারণ এটি কোনও গবেষককে তুলনা করার পরে তুলনা করার চেষ্টা করার একটি চিত্রকে অনুরোধ করে এবং একটি মাছ ছিনতাই হওয়া পর্যন্ত বারবার হ্রদে লাইন ফেলে দেয়। গবেষকরা নিয়মিত তা করে তা ভাবার কোনও কারণ আমাদের নেই। আমরা মনে করি আসল কাহিনীটি হ'ল গবেষকরা তাদের অনুমান এবং তাদের ডেটা বিবেচনা করে একটি যুক্তিসঙ্গত বিশ্লেষণ করতে পারেন, তবে যদি ডেটাটি অন্যরকমভাবে রূপান্তরিত হয় তবে তারা অন্যান্য বিশ্লেষণগুলিও করতে পারতেন যেগুলি সেই পরিস্থিতিতে যেমন যুক্তিযুক্ত ছিল।

আমরা দুটি কারণের জন্য "ফিশিং" এবং "পি-হ্যাকিং" (এবং এমনকি "স্বাধীনতার গবেষক ডিগ্রি") পদগুলি ছড়িয়ে যাওয়ার জন্য আফসোস করছি: প্রথমত, কারণ যখন এই পদগুলি কোনও গবেষণার বর্ণনা দেওয়ার জন্য ব্যবহৃত হয়, তখন গবেষকরা বিভ্রান্তিমূলকভাবে বোঝায় যে সচেতনভাবে একটি একক ডেটা সেটে বহুবিধ বিশ্লেষণ চেষ্টা করছিলেন; এবং দ্বিতীয়ত, কারণ এটি গবেষকরা নেতৃত্ব দিতে পারে যারা জানেন যে তারা ভুলরূপে ভাবেন যে তারা স্বাধীনতার গবেষক ডিগ্রিগুলির সমস্যার কারণে এতটা দৃ strongly়তার সাথে নয় এমন অনেকগুলি বিশ্লেষণের চেষ্টা করেননি। [...] এখানে আমাদের মূল বক্তব্যটি হ'ল একাধিক সম্ভাব্য তুলনা করা সম্ভব, এমন এক ডেটা বিশ্লেষণের অর্থে যার বিশদ তথ্যের উপর অত্যন্ত নির্ভরশীল, গবেষকরা মাছ ধরার কোনও সচেতন পদ্ধতি সম্পাদন বা একাধিক পি-মান পরীক্ষা না করেই করেন without ।

সুতরাং: জেলম্যান পি-হ্যাকিং শব্দটি পছন্দ করেন না কারণ এটি সূচিত করে যে গবেষকরা সক্রিয়ভাবে প্রতারণা করেছিলেন। সমস্যাগুলি কেবল তখনই ঘটতে পারে কারণ গবেষকরা ডেটা দেখার পরে কোন পরীক্ষাটি সম্পাদন / রিপোর্ট করবেন তা বেছে নেন, অর্থাত্ কিছু অনুসন্ধান বিশ্লেষণ করার পরে।

জীববিজ্ঞানে কাজ করার কিছু অভিজ্ঞতার সাথে, আমি নিরাপদে বলতে পারি যে প্রত্যেকে এটি করে। প্রত্যেকে (আমার অন্তর্ভুক্ত) কেবলমাত্র একটি অগ্রণী অনুমানের সাথে কিছু তথ্য সংগ্রহ করে, ব্যাপক তদন্ত বিশ্লেষণ করে, বিভিন্ন তাত্পর্য পরীক্ষা করে, আরও কিছু ডেটা সংগ্রহ করে, পরীক্ষা চালায় এবং পুনরায় চালায় এবং অবশেষে চূড়ান্ত পাণ্ডুলিপিতে কিছু মূল্যায়ন রিপোর্ট করে। সক্রিয়ভাবে প্রতারণা করা, বোবা এক্সকেসিডি-জেলি-সিম-স্টাইলে চেরি-বাছাই করা বা সচেতনভাবে কোনও কিছু হ্যাক করা ছাড়াই এগুলি সব ঘটছে ।p

সুতরাং "পি-হ্যাকিং" যদি কোনও লা গেলম্যানের কাঁটাচামচ পথকে বিস্তৃতভাবে বোঝার জন্য হয় তবে এটি কতটা প্রচলিত, তার উত্তর এটি প্রায় সর্বজনীন।

মাথায় আসা একমাত্র ব্যতিক্রমগুলি মনোবিজ্ঞানের সম্পূর্ণ প্রাক-নিবন্ধিত প্রতিলিপি অধ্যয়ন বা সম্পূর্ণ প্রাক-নিবন্ধিত মেডিকেল পরীক্ষাগুলি।

নির্দিষ্ট প্রমাণ

হাস্যকরভাবে, কিছু লোক গবেষকদের কাছে জানতে পেরেছিলেন যে অনেকে হ্যাকিং কিছু প্রকারের স্বীকার করেছেন ( জন এট। ২০১২, সত্য বলার জন্য উদ্দীপনা দিয়ে প্রশ্নোত্তর গবেষণা অনুশীলনের প্রসার পরিমাপ ):

জন এট আল

এগুলি ছাড়াও প্রত্যেকে মনোবিজ্ঞানের তথাকথিত "প্রতিলিপি সংকট" সম্পর্কে শুনেছিলেন: শীর্ষ মনোবিজ্ঞান জার্নালে প্রকাশিত সাম্প্রতিক গবেষণার অর্ধেকেরও বেশি প্রতিরূপ তৈরি করে না ( নোসেক এট আল। 2015, মনস্তাত্ত্বিক বিজ্ঞানের প্রজননযোগ্যতা অনুমান করে )। (এই অধ্যয়নটি সম্প্রতি আবার ব্লগগুলিতে পুরোপুরি হয়েছে, কারণ বিজ্ঞানের মার্চ ২০১ issue সংখ্যায় নোসেক এট আলকে খণ্ডন করার চেষ্টা করে একটি মন্তব্য প্রকাশিত হয়েছে এবং নোসেক এট আল-এর একটি উত্তরও ছিল। আলোচনা অন্য কোথাও অব্যাহত রয়েছে, অ্যান্ড্রু গ্যালম্যানের পোস্ট দেখুন এবং তিনি যে লিঙ্কটি প্রত্যাহার করেন তা প্রত্যাহার করে দেখুন।

আপডেট নভেম্বর 2018: কাপলান এবং ইরভিন, 2017, বৃহত্তর এনএইচএলবিআই ক্লিনিকাল ট্রায়ালের নাল ইফেক্টের সম্ভাবনা সময়ের সাথে বৃদ্ধি পেয়েছে যে প্রাক-রেজিস্ট্রেশন হওয়ার পরে নাল রেজাল্টের রিপোর্টিং ক্লিনিকাল ট্রায়ালগুলির ভগ্নাংশ 43% থেকে বেড়ে 92% হয়ে গেছে:

এখানে চিত্র বর্ণনা লিখুন


Pসাহিত্যে মূল্য বিতরণ

প্রধান এবং অন্যান্য। 2015

আমি হেড এট আল সম্পর্কে শুনিনি আগে অধ্যয়ন, তবে এখন আশেপাশের সাহিত্যের সন্ধানে কিছুটা সময় ব্যয় করেছেন। আমি তাদের কাঁচা তথ্য একটি সংক্ষিপ্ত বিবরণও দেখেছি ।

প্রধান এবং অন্যান্য। পাবমিড থেকে সমস্ত ওপেন অ্যাক্সেসের কাগজপত্র ডাউনলোড হয়েছে এবং পাঠ্যে উল্লিখিত সমস্ত পি-মানগুলি বের করেছে, ২.7 মিলিয়ন পি-মান পেয়েছে। এর মধ্যে ১.১ মিলিয়ন হিসাবে এবং হিসাবে নয় বলে প্রতিবেদন করা হয়েছিল । এর মধ্যে হেড এট আল। এলোমেলোভাবে কাগজ প্রতি একটি পি-মান নিয়েছে তবে এটি বিতরণে কোনও পরিবর্তন আনবে বলে মনে হচ্ছে না, সুতরাং সমস্ত 1.1 মিলিয়ন মানের বিতরণটি ( থেকে ) কেমন দেখাচ্ছে :p=ap<a00.06

সাহিত্যে পি-মূল্যবোধ বিতরণ

আমি বিন প্রস্থ ব্যবহার করেছি এবং প্রতিবেদনিত মূল্যগুলিতে একজন স্পষ্টতই অনুমানযোগ্য গোলটি দেখতে পাবে। এখন, হেড এবং অন্যান্য। নিম্নলিখিতগুলি করুন: তারা ব্যবধানে এবং ব্যবধানে মূল্যগুলির সংখ্যা তুলনা করে ; প্রাক্তন সংখ্যাটি (উল্লেখযোগ্যভাবে) বড় হতে দেখা যায় এবং তারা এটিকে হ্যাকিংয়ের প্রমাণ হিসাবে গ্রহণ করে । যদি একটি স্কিন্ট করে, তবে এটি আমার চিত্রের উপর দেখতে পাবে।0.0001pp(0.045,0.5)(0.04,0.045)p

আমি এটি একটি সাধারণ কারণের জন্য এটি অত্যন্ত অনর্থক বলে মনে করি। সাথে কে তাদের ফলাফলের প্রতিবেদন করতে চায় ? প্রকৃতপক্ষে, অনেক লোক ঠিক এমনটি করছে বলে মনে হয়, তবে এখনও এই অসন্তুষ্টিজনক সীমান্ত-রেখা মানটি এড়াতে চেষ্টা করা এবং অন্য উল্লেখযোগ্য অঙ্কের প্রতিবেদন করা, যেমন (অবশ্যই এটি ) স্বাভাবিক বলে মনে হয় । সুতরাং ভ্যালুগুলির কিছু অতিরিক্ত তবে সমান নয় গবেষকের গোলাকৃত পছন্দগুলি দ্বারা ব্যাখ্যা করা যেতে পারে।p=0.05p=0.048p=0.052p0.05

এবং এটি বাদে, প্রভাব ক্ষুদ্র

(শুধুমাত্র শক্তিশালী প্রভাব যে আমি এই চিত্র দেখতে পাবে একটি উচ্চারিত ড্রপ পরে -value ঘনত্ব । এটা স্পষ্ট প্রকাশন পক্ষপাত কারণে।)p0.05

আমি যদি কিছু মিস না করি তবে হেড এট। এমনকি এই সম্ভাব্য বিকল্প ব্যাখ্যাটিও আলোচনা করবেন না। তারা ভ্যালুগুলির কোনও হিস্টোগ্রাম উপস্থাপন করে না ।p

হেড এট আল-এর সমালোচনা করার মতো একটি দল রয়েছে। ইন এই অপ্রকাশিত পাণ্ডুলিপি Hartgerink যে হেড এট যুক্তি। তাদের তুলনায় এবং অন্তর্ভুক্ত করা উচিত (এবং যদি তারা থাকে তবে তারা তাদের প্রভাব খুঁজে পেত না)। আমি সে সম্পর্কে নিশ্চিত নই; এটি খুব দৃ sound়প্রবণ মনে হয় না। এটি যদি আরও ভাল হয় যে আমরা কোনওরকম বৃত্তাকার ছাড়াই "কাঁচা" মূল্যগুলির বিতরণটি পরীক্ষা করতে পারি।p=0.04p=0.05p

বৃত্তাকার ছাড়াই মূল্যগুলির বিতরণp

ইন এই 2016 PeerJ কাগজ (উদ্ভাবনের 2015 পোস্ট) একই Hartgerink এট অল। শীর্ষ মনোবিজ্ঞান জার্নালে প্রচুর কাগজপত্র থেকে পি-মানগুলি বের করুন এবং ঠিক এটি করুন: তারা উল্লিখিত -, -, i - ইত্যাদি থেকে যথাযথ মূল্য পুনরুদ্ধার করে ; এই বিতরণটি যে কোনও গোলকৃত নিদর্শনগুলি থেকে মুক্ত এবং 0.05 (চিত্র 4) এর দিকে কোনও বৃদ্ধি প্রদর্শন করে না:ptFχ2

হার্টগারিংক পিয়ারজে পেপার

ক্রোচিজিক 2015 পিএলওএস ওয়ান-তে একটি খুব অনুরূপ পন্থা নিয়েছে , যিনি শীর্ষ পরীক্ষামূলক মনোবিজ্ঞান জার্নালগুলি থেকে 135k মূল্যগুলি বের করেন। প্রতিবেদন করা (বাম) এবং সংশোধিত (ডানদিকে) মূল্যগুলির জন্য বিতরণটি কীভাবে দেখায়:pp

Krawczyk

পার্থক্যটি আকর্ষণীয়। বাম হিস্টোগ্রামে আশেপাশে কিছু অদ্ভুত জিনিস চলতে দেখায় তবে ডানদিকে এটি চলে গেছে। এর অর্থ এই অদ্ভুত জিনিসগুলি হ্যাকিংয়ের কারণে নয়, কাছাকাছি মান প্রতিবেদন করা লোকজনের পছন্দগুলির কারণে ।p=0.05p0.05p

মাসিক্যাম্পো এবং লালান্দে

মনে হয় যে ০.০৫ এর ঠিক নীচে ভ্যালুগুলির কথিত অতিরিক্ত পর্যবেক্ষণ করা প্রথমটি ছিল ম্যাসিক্যাম্পো এবং লালান্দে ২০১২ , মনোবিজ্ঞানের তিনটি শীর্ষ জার্নালকে দেখে:p

মাসিক্যাম্পো এবং লালান্দে

এটি চিত্তাকর্ষক দেখাচ্ছে না, তবে লাকেন্স 2015 ( প্রিপ্রিন্ট ) একটি প্রকাশিত মন্তব্যে যুক্তি দেখিয়েছে যে এটি কেবল বিভ্রান্তিকর ক্ষয়ক্ষতিযুক্ত ফিটের জন্য চিত্তাকর্ষক ধন্যবাদ বলে মনে হচ্ছে০.০৫ এর নীচে পি-মানগুলি থেকে সিদ্ধান্তগুলি আঁকানোর চ্যালেঞ্জগুলি এবং এর মধ্যে উল্লেখ হিসাবে , লাকেন্স 2015 দেখুন ।

অর্থনীতি

ব্রোডিউর এট আল। অর্থনীতি সাহিত্যের জন্য একই কাজ করুন 2016 (লিঙ্কটি 2013 প্রিপ্রিন্টে যায়)। তিনটি অর্থনীতির জার্নালের দিকে নজর দিন, 50 কে পরীক্ষার ফলাফলগুলি বের করুন, তাদের সমস্তকে স্কোরগুলিতে রূপান্তর করুন (যখনই সম্ভব রিপোর্ট করা সহগ এবং স্ট্যান্ডার্ড ত্রুটিগুলি ব্যবহার করুন এবং ভ্যালুগুলি কেবলমাত্র তাদের প্রতিবেদন করা থাকলে ব্যবহার করুন) এবং নিম্নলিখিতগুলি পান:zp

Brodeur

এটি কিছুটা বিভ্রান্তিকর কারণ ছোট মূল্যগুলি ডানদিকে এবং বড় মূল্যগুলি বাম দিকে। লেখকেরা যেমন বিমূর্তে লিখেছেন, "পি-মানগুলির বন্টন একটি উটের আকারকে প্রচুর পরিমাণে পি-মান সহ .25" এবং ".25 এবং .10 এর মধ্যে একটি উপত্যকা" প্রদর্শন করে। তাদের যুক্তি যে এই উপত্যকাটি মৎসকন্যার একটি চিহ্ন, তবে এটি কেবল পরোক্ষ প্রমাণ। এছাড়াও, এটি কেবল নির্বাচনী প্রতিবেদনের কারণে হতে পারে, যখন উপরের বড় পি-মানগুলি .25 এর প্রভাবের অভাবের কিছু প্রমাণ হিসাবে রিপোর্ট করা হয় তবে .1 এবং .25 এর মধ্যে পি-মানগুলি এখানে বা না থাকায় অনুভূত হয় এবং প্রবণতা থাকে বাদ দেওয়া হবে। (এই প্রভাবটি জৈবিক সাহিত্যে উপস্থিত কিনা তা আমি নিশ্চিত নই কারণ উপরের প্লটগুলি অন্তরকে কেন্দ্র করে)ppp<0.05


মিথ্যা আশ্বাস?

উপরের সব উপর ভিত্তি করে, আমার উপসংহার যে আমি কোন শক্তিশালী প্রমাণ দেখতে পাচ্ছি না হয় মধ্যে -hacking সামগ্রিকভাবে জৈবিক / মানসিক সাহিত্য জুড়ে -value ডিস্ট্রিবিউশন। নির্বাচনী প্রতিবেদন, প্রকাশন পক্ষপাত প্রমাণ প্রচুর আছে, rounding -values নিচে থেকে এবং অন্যান্য মজার রাউন্ডইং প্রভাব, কিন্তু আমি হেড এট সিদ্ধান্তে একমত .: নিচে কোন সন্দেহজনক আচমকা আছে ।ppp0.05 0.050.050.05

উরি সিমোনসোহনের যুক্তি যে এটি "মিথ্যাভাবে আশ্বাস দেয়" । ঠিক আছে, তিনি এই কাগজপত্রগুলি অ-সমালোচিতভাবে উদ্ধৃত করেছেন তবে তারপরে মন্তব্য করেছেন যে "বেশিরভাগ পি-মানগুলি ছোট আকারের হয়" 0.05 এর চেয়ে বেশি। তারপরে তিনি বলেছেন: "এটি আশ্বাস দেয়, তবে মিথ্যাভাবে আশ্বাস দেয়"। এবং এখানে কেন:

যদি আমরা জানতে চাই যে গবেষকরা তাদের ফলাফলগুলি পি-হ্যাক করে থাকেন তবে আমাদের তাদের ফলাফলের সাথে সম্পর্কিত পি-মানগুলি পরীক্ষা করতে হবে, তারা প্রথমে পি-হ্যাক করতে চাইতে পারে। নমুনাগুলি, পক্ষপাতহীন হওয়ার জন্য, কেবলমাত্র আগ্রহের জনসংখ্যার পর্যবেক্ষণ অন্তর্ভুক্ত করতে হবে।

বেশিরভাগ পেপারে উল্লিখিত বেশিরভাগ পি-মানগুলি সুদের কৌশলগত আচরণের জন্য অপ্রাসঙ্গিক। কোভেরিয়েটস, ম্যানিপুলেশন চেক, স্টাডি পরীক্ষার ইন্টারঅ্যাকশনগুলির মূল প্রভাব ইত্যাদি them এগুলি সহ আমরা পি-হ্যাকিংকে অবমূল্যায়ন করি এবং আমরা ডেটার স্পেসিটিভ মানকে বেশি মূল্যায়ন করি। সমস্ত পি-মান বিশ্লেষণ করে একটি পৃথক প্রশ্ন জিজ্ঞাসা করা হয়, কম সংবেদনশীল। "গবেষকরা কি তারা পড়াশুনা করে পি-হ্যাক করে?" পরিবর্তে আমরা জিজ্ঞাসা করি "গবেষকরা কি সব কিছু পি-হ্যাক করেন?"

এটি মোটামুটি বোঝায়। এ খুঁজছি সব রিপোর্ট -values উপায় খুব সশব্দ হয়। উরির কার্ভ পেপার ( সিমোনসোহান এট আল। ২০১৩ ) খুব যত্ন সহকারে নির্বাচিত মূল্যগুলির দিকে নজর দিলে কেউ কী দেখতে পারে তা সুন্দরভাবে প্রদর্শন করে । তারা কয়েকটি সন্দেহজনক কীওয়ার্ডের উপর ভিত্তি করে 20 মনোবিজ্ঞানের কাগজপত্র নির্বাচন করেছে (যথা, এই গবেষণাগুলির লেখকরা কোনও কোভেরিয়েটের জন্য পরীক্ষা নিয়ন্ত্রণের রিপোর্ট করেছিলেন এবং এটি নিয়ন্ত্রণ না করে কী ঘটেছিল তা রিপোর্ট করেননি) এবং তারপরে কেবল মূল্যায়নই নিয়েছিল যা মূল অনুসন্ধানগুলি পরীক্ষা করে। বিতরণটি কেমন দেখাচ্ছে (বাম):ppপি পিpp

Simonsohn

শক্তিশালী বাম স্কু দৃ ় হ্যাকিংয়ের পরামর্শ দেয় ।p

উপসংহার

আমি বলতে হবে আমরা যে জানি যে আবশ্যক অনেকটা হতে -hacking বেশিরভাগই forking-পথ যে ধরনের Gelman বর্ণনা করে, চলছে; সম্ভবত যে পরিমাণ প্রকাশিত মূল্যগুলি সত্যিকার অর্থে মূল্য গ্রহণ করা যায় না এবং পাঠকের দ্বারা কিছুটা ভগ্নাংশের দ্বারা "ছাড় করা উচিত"। যাইহোক, এই মনোভাবটি কেবল নীচে সামগ্রিক মূল্যগুলির বিতরণে কেবল একটি দ্বিধাগুলির চেয়ে আরও সূক্ষ্ম প্রভাব ফেলতে পারে বলে মনে হয় এবং এ জাতীয় অস্পষ্ট বিশ্লেষণ দ্বারা সত্যই এটি সনাক্ত করা যায় না।ppপি 0.05 p0.05


4
simply because the researches chose what test to perform/report after looking at the dataহ্যাঁ; এবং সমস্যাটি অনিবার্য কারণ ডাবল এজ। যখন ডেটার জন্য আরও ভাল পদ্ধতি বেছে নেওয়া হচ্ছে - এটি কি সেই নির্দিষ্ট নমুনার চেয়ে বেশি বা সেই জনসংখ্যার প্রযুক্তিগত কলগুলির একটি সভা? বা - অপসারণকারীদের অপসারণ - এটি জনসংখ্যাকে নকল করছে বা পুনরুদ্ধার করছে? কে বলবে, শেষ পর্যন্ত?
ttnphns

আমি যে ধরণের উত্তরের জন্য সবচেয়ে বেশি আশা করছিলাম তা সম্ভবত বর্তমান সাহিত্যের একটি সংক্ষিপ্ত উপস্থাপনা ছিল, হেড এট আল পেপার সর্বশেষ চিন্তাধারার ন্যায্য সংক্ষিপ্ততা কিনা ইত্যাদি সম্পর্কে কিছু পয়েন্টার আমি এই উত্তরটির মোটেও আশা করছিলাম না। তবে আমি মনে করি এটি দুর্দান্ত, এবং জেলম্যানের চিন্তাভাবনা এবং ব্যবহারিক অন্তর্দৃষ্টি বিশেষভাবে সহায়ক। আমি যখন প্রশ্নটি লিখেছিলাম ঠিক তখনই @ @nnfns- এর প্রতি আমার মনে একই জিনিস ছিল (সম্ভবত এটি দেখায়, আমি এমনকি "অতিশয়ী" শব্দটিও বিবেচনা করেছি considered)
সিলভারফিশ

তবুও, "বিজ্ঞান অনুশীলনে কীভাবে কাজ করে" এর সাধারণ এবং অদম্য বিপর্যয় বাদ দিয়ে পরিসংখ্যানগত পরীক্ষার অনুমানের জন্য একটি অপূর্ণ ম্যাচ হয়ে, আমি অবাকই হই যে এই বুজিম্যান "দূষিত পি-হ্যাকারদের অন্ধকার শিল্প" আসলেই বাইরে আছে কিনা, এবং যদি তাই হয়, ঠিক কতদূর পৌঁছে যায়। এটি উত্সাহ দেওয়ার জন্য অবশ্যই শক্তিশালী (ভুল) প্রণোদনা রয়েছে।
সিলভারফিশ

2
আপনি এই হেড এট এর সাথে আমাকে কৌতূহলী করে তোলেন। কাগজ, @ সিলভারফিশ, সুতরাং আমাকে এখনই এটি স্বীকার করতে হবে, কাজ করার পরিবর্তে, আমি হেড এট আল এর ফলাফলগুলির সমালোচনা করে কিছু কাগজপত্র দিয়ে ব্রাউজ করছি এবং ইতিমধ্যে তাদের কাঁচা ডেটা ডাউনলোড করেছি ... ওহ আমার।
অ্যামিবা

2
+1 টি। সর্বশেষ জেলম্যান ব্লগ নিবন্ধ ( andrewgelman.com/2016/03/09/… ) অনেকগুলি ক্ষেত্রকে কভার করে এবং একটি গ্রুপের দ্বারা একটি আকর্ষণীয় পুনর্বারককে হাইলাইট করেছে যেগুলি প্রতিলিপিগুলি চেষ্টা করেছিল এবং তারপরে মূল গবেষণার লেখকদের দ্বারা কঠোর সমালোচিত হয়েছিল: retractwatch.com/
ওয়েইন

22

ফানেল প্লটগুলি একটি অসাধারণ পরিসংখ্যানগত উদ্ভাবন যা তার মাথায় মেটা বিশ্লেষণকে পরিণত করে। মূলত, একটি ফানেল প্লট একই প্লটের ক্লিনিকাল এবং পরিসংখ্যানগত তাত্পর্য দেখায়। আদর্শভাবে, তারা একটি ফানেল আকার গঠন করবে। তবে বেশ কয়েকটি মেটা-বিশ্লেষণগুলি ফানেল প্লট তৈরি করেছে যা একটি শক্ত বাইমোডাল আকৃতি দেখায়, যেখানে তদন্তকারীরা (বা প্রকাশকরা) নির্বাচিতভাবে নির্বাচনগুলি বাতিল করে রেখেছিলেন যা বাতিল ছিল। ফলাফলটি ত্রিভুজটি আরও বিস্তৃত হয়, কারণ ছোট, কম চালিত অধ্যয়নগুলি পরিসংখ্যানিক তাত্পর্যতে পৌঁছানোর জন্য ফলাফলগুলিকে "উত্সাহিত" করতে আরও কঠোর পদ্ধতি ব্যবহার করে। তাদের সম্পর্কে এই কথাটি বলতে কোচরান রিপোর্ট টিমের রয়েছে

যদি পক্ষপাত থাকে তবে উদাহরণস্বরূপ উল্লেখযোগ্য প্রভাব ছাড়াই ছোট অধ্যয়নগুলি (চিত্র 10.4.a, প্যানেল এ-তে খোলা চেনাশোনা হিসাবে প্রদর্শিত) অপ্রকাশিত থেকে যায়, এর ফলে নীচের কোণায় ফাঁক হয়ে ফানেল প্লটের একটি অসামান্য উপস্থিতি দেখা দেয় গ্রাফ (প্যানেল বি) এই পরিস্থিতিতে একটি মেটা-বিশ্লেষণে গণনা করা প্রভাবটি হস্তক্ষেপের প্রভাবকে বেশি বিবেচনা করবে (এগার 1997a, ভিলার 1997)। অসমমিতি যত বেশি প্রকট হয়, তত বেশি সম্ভাবনা থাকে যে পক্ষপাতের পরিমাণ যথেষ্ট হবে।

প্রথম প্লট পক্ষপাতের অনুপস্থিতিতে একটি প্রতিসম প্লট দেখায়। দ্বিতীয়টি পক্ষপাতদুষ্টতার উপস্থিতিতে একটি অসম প্লট দেখায়। তৃতীয় পক্ষপাতের উপস্থিতিতে একটি অসামান্য প্লট দেখায় কারণ কিছু ছোট অধ্যয়ন (উন্মুক্ত চেনাশোনা) নিম্ন পদ্ধতিগত মানের হয় এবং তাই অতিরঞ্জিত হস্তক্ষেপ প্রভাব অনুমান উত্পাদন করে।

এখানে চিত্র বর্ণনা লিখুন

এখানে চিত্র বর্ণনা লিখুন

এখানে চিত্র বর্ণনা লিখুন

আমার সন্দেহ হয় যে বেশিরভাগ লেখক পি-হ্যাক করার জন্য যে পদ্ধতিগুলি ব্যবহার করেন সে সম্পর্কে তাদের অজানা। তারা পুরোপুরি কতগুলি মডেল ফিট সেগুলি ট্র্যাক করে না, আলাদাভাবে ছাড়ের মানদণ্ড প্রয়োগ করে বা প্রতিবার বিভিন্ন সমন্বয় ভেরিয়েবলগুলি বেছে নেয়। তবে, যদি আমাকে একটি সাধারণ প্রক্রিয়া আদেশ করতে হয় তবে আমি মোট মডেলগুলির ফিট ফিট দেখতে পছন্দ করব। মডেলগুলি পুনরায় চালিত করার বৈধ কারণ থাকতে পারে তা বলার অপেক্ষা রাখে না, উদাহরণস্বরূপ আমরা নমুনায় অপোই সংগ্রহ করা হয়েছিল তা না জেনে একটি আলঝাইমার বিশ্লেষণ চালিয়েছি ran আমার মুখে ডিম, আমরা মডেলগুলি পুনরায় পুনরায় সাজাই।


4
আমি পছন্দ করি যে আপনি "তদন্তকারী (বা প্রকাশক) নির্বাচনীভাবে বাতিল ফলাফলগুলি যা বাতিল ছিল " জোর দিয়েছিলেন "। প্রদত্ত যে কোনও প্রকাশনাকে প্রত্যাখ্যান করতে ব্যর্থ হয়েছে , তদন্তকারীদের দোষটি অবিচ্ছেদ্যভাবে নয়।
ক্লিফ এবি

2
আমার প্রশ্নের একটি দিক ছিল "পি-হ্যাকিং" এবং "প্রকাশনার পক্ষপাত" এর মধ্যে পার্থক্য - এই উত্তরটি কিছু উপায়ে দু'টিকেই পূরণ করে। আপনি কি সেভাবে বলছেন তার অর্থ ব্যাখ্যা করতে আমি কি ঠিক বলতে পারি, অর্থাত "প্রকাশনা পক্ষপাত মূলত পি-হ্যাকিংয়ের একটি রূপ, তবে প্রকাশক দ্বারা"?
সিলভারফিশ

1
পূর্ববর্তী মন্তব্য অনুসারে @ সিলভারফিশ পাবলিকেশন পক্ষপাত, লেখক বা প্রকাশক দ্বারা চালিত হতে পারে তবে হ্যাঁ, এটি অবশ্যই স্পষ্টভাবে হ্যাকিং। ফানেল প্লটগুলি প্রকাশিত গবেষণার ক্ষেত্রে প্রয়োগ করা যেতে পারে তবে এগুলি যে কোনও সেটিংতে প্রযোজ্য যেখানে "বৈজ্ঞানিক প্রতিলিপি" তাত্পর্য দেখাতে শুরু করে। বেশ কয়েকটি কেন্দ্র বা পাইকারী বিক্রেতা জুড়ে মাদকদ্রব্য, বা ব্যবসায়ের নীতিমালা বাস্তবায়নের নিশ্চয়তার জন্য ট্রায়াল। যখনই আপনি প্রতিলিপিগুলি নিয়ে কাজ করছেন, কোনও ফানেল প্লট শূন্যস্থান দেখিয়ে হ্যাকিংয়ের কিছু প্রমাণ সরবরাহ করতে পারে যেখানে নালীর ফলাফলগুলি পড়েছিল। পিpp
অ্যাডমো

2
হুম। প্রথমে আমি প্রতিবাদ করতে এবং দাবি করতে চেয়েছিলাম যে প্রকাশনার পক্ষপাতটি পি-হ্যাকিং থেকে পৃথক (একইভাবে, আমি মনে করি, @ সিলভারফিশ কীভাবে তার কিউ ফ্রেম করেছেন) তার থেকেও, তবে আমি বুঝতে পেরেছিলাম যে আমি মূলত ভেবেছিলাম তার চেয়ে সীমারেখা আঁকানো আরও কৌশলযুক্ত y জেলি-বিন-স্টাইলের একাধিক তুলনা সম্পাদন করা এবং কেবল উল্লেখযোগ্যগুলি (পি-হ্যাকিং?) রিপোর্ট করা একাধিক অধ্যয়ন সম্পাদন করা এবং কেবল উল্লেখযোগ্যগুলি (যা সংজ্ঞা অনুসারে প্রকাশনা পক্ষপাত হয়) রিপোর্ট করা থেকে খুব আলাদা নয়। তবুও, পি-হ্যাকিং ডেটা ম্যাসেজ করার অর্থে পি-হ্যাকিং যতক্ষণ না পি <0.05 আমার কাছে যথেষ্ট আলাদা মনে হয় feel
অ্যামিবা

2
@ আমেবা আমারও একই উদ্বেগ ছিল, তবে ওপি-র প্রশ্নটি পড়ার পরে আমি বুঝতে পেরেছিলাম যে "জিনিসগুলির সসেজ শেষ" সম্পর্কে হ্যাকিংয়ের পরিণতি সম্পর্কে উদ্বেগ রয়েছে । বেশিরভাগ হ্যাকিং পদ্ধতি সাধারণত রিপোর্ট করা বাদ দেওয়া হয়। সুতরাং পরিসংখ্যানবিদ যা অন্ধ হয়ে গেছে, তারপরে আমরা কীভাবে পার্থক্যগুলি মেটালাম? ঠিক আছে, ফলাফলগুলি প্রতিলিপি এবং নিশ্চিত করার জন্য আমাদের স্বাধীন প্রচেষ্টা দরকার। পিpp
অ্যাডমো
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.