পর্যবেক্ষণ করা ডেটা (ওরফে ফিশিং অভিযান) মেলানোর জন্য এবং টাইপ 1 ত্রুটির বৃদ্ধি এড়াতে অনুমানের পরিবর্তন করা কি সম্ভব?


32

এটি সুপরিচিত যে গবেষকগণ একটি অনুমান গঠন করার আগে বিদ্যমান তথ্য এবং গবেষণা পর্যবেক্ষণ এবং অন্বেষণে সময় ব্যয় করা উচিত এবং তারপরে সেই হাইপোথিসিস (নাল-হাইপোথিসিসের তাত্পর্য পরীক্ষার উল্লেখ করে) পরীক্ষা করার জন্য ডেটা সংগ্রহ করা উচিত। অনেকগুলি প্রাথমিক পরিসংখ্যান বই সতর্ক করে যে অনুমানগুলি অবশ্যই একটি প্রাইরি গঠন করা উচিত এবং ডেটা সংগ্রহের পরে পরিবর্তন করা যাবে না অন্যথায় পদ্ধতিটি অবৈধ হয়ে যায়।

আমি বুঝি যে এক কারণে কেন একটি হাইপোথিসিস পরিবর্তন পর্যবেক্ষিত তথ্য মাপসই সমস্যাযুক্ত কৃত্রিম ডেটার কারণে একটি টাইপ আমি ভুল সংগঠনের বৃহত্তর সুযোগ কারণ, কিন্তু আমার প্রশ্ন হচ্ছে, যে শুধুমাত্র বা কারণ যাচ্ছে সঙ্গে অন্যান্য মৌলিক সমস্যার আছে ফিশিং অভিযানে?

বোনাস প্রশ্ন হিসাবে, সম্ভাব্য ক্ষতির মধ্যে নিজেকে প্রকাশ না করে কী কী ফিশিং অভিযান চালিয়ে যাওয়ার উপায় রয়েছে? উদাহরণস্বরূপ, আপনার যদি পর্যাপ্ত ডেটা থাকে তবে আপনি কি অর্ধেক ডেটা থেকে অনুমান তৈরি করতে পারেন এবং তার পরে পরীক্ষার জন্য অন্য অর্ধেকটি ব্যবহার করতে পারেন?

হালনাগাদ

আমি আমার প্রশ্নের আগ্রহের প্রশংসা করি, তবে উত্তর এবং মন্তব্যগুলি বেশিরভাগ ক্ষেত্রে আমি কী ভেবেছিলাম পশ্চাদপট তথ্য হিসাবে প্রতিষ্ঠিত করেছি at আমি উত্সাহজনক ফলাফলের উচ্চ সম্ভাবনার বাইরে এটি খারাপ হওয়ার অন্যান্য কারণ রয়েছে কিনা তা জানতে আগ্রহী এবং এর মধ্যে যদি কোনও হাইপোথিসিস পোস্ট হকের পরিবর্তন করার আগে ধরণের ডেটা বিভক্ত করার মতো ধরণের উপায় রয়েছে তবে প্রথম ধরণের ত্রুটি বৃদ্ধি এড়ানো উচিত।

আশা করি আমার প্রশ্নের জোর প্রতিফলিত করার জন্য আমি শিরোনাম আপডেট করেছি।

ধন্যবাদ, এবং বিভ্রান্তির জন্য দুঃখিত!



1
ইতিমধ্যে যা বলা হয়েছে সে সম্পর্কে আরেকটি দৃষ্টিভঙ্গি গ্রহণ করা: বৈজ্ঞানিক পদ্ধতির সারমর্মটি অনুমান করা এবং তারপরে তাদের মিথ্যা বলার চেষ্টা করা যাতে তারা তত্ত্ব হতে পারে (যদি মিথ্যাচার ব্যর্থ হয়)। কোনও ফিশিং অভিযানে যাওয়া অনুমানগুলি যে কোনও পরবর্তী পরীক্ষায় মিথ্যা বলার উপযুক্ত তা খুঁজে পাওয়ার একটি বৈধ উপায়, তবে আপনি কখনই কোনও হাইপোথিসিসকে একবারে মিথ্যা বলার চেষ্টা করতে পারবেন না। বিশেষত, আপনি যদি নিজের হাইপোথিসিসটি সামঞ্জস্য করতে উন্মুক্ত হন তবে আপনি এটিকে আর মিথ্যা বলার চেষ্টা করছেন না। পরিবর্তে, আপনি যখন সামঞ্জস্য করেন, আপনি আপনার অযৌক্তিক অনুমানকে মিথ্যা বলছেন এবং একটি নতুন অনুমান গঠন করছেন।
Wrzlprmft

@ জোনা, এটি একটি দুর্দান্ত কাগজ। আমি ইওনিডিস এবং শুলার উভয়ই ইতিমধ্যে কাগজপত্র পড়েছি, তবে সিমন্স এট আল এই সমস্যাটি খুব আশ্চর্যরূপে বর্ণনা করেছেন।
পোস্ট-হক

1
: আমি কিনা এছাড়াও আপনি এই কাগজ আপনার প্রশ্নের প্রাসঙ্গিক পাবেন হতাশ করছি stat.columbia.edu/~gelman/research/published/multiple2f.pdf । এটি ঠিক একই বিষয়ে নয়, তবে এটি এর একটি দিককে সম্বোধন করে।
a11msp

1
ডেটা আপনাকে আপনার হাইপোথিসিস পরিবর্তন করতে পারে ... তবে সেক্ষেত্রে আপনাকে নতুন অনুমানটি নিশ্চিত করার জন্য আপনাকে স্ক্র্যাচ থেকে নতুন ডেটা সংগ্রহ করা শুরু করতে হবে।
কেশলাম

উত্তর:


54

অবশ্যই আপনি মাছ ধরার অভিযান চালিয়ে যেতে পারবেন, যতক্ষণ না আপনি স্বীকার করেন যে এটি কোনও মাছ ধরার অভিযান এবং এরূপ হিসাবে আচরণ করা। এর জন্য একটি দুর্দান্ত নাম হ'ল "অনুসন্ধানের ডেটা বিশ্লেষণ"।

আরও ভাল উপমা লক্ষ্যতে শ্যুট করতে পারে:

ষাঁড়ের চোখে আঘাত পেলে আপনি লক্ষ্যবস্তুতে গুলি করতে পারেন এবং উদযাপন করতে পারেন।

আপনার বন্দুকের বৈশিষ্ট্য পরীক্ষা করার জন্য আপনি লক্ষ্য ছাড়াই গুলি করতে পারেন।

তবে এটি কোনও দেয়ালে গুলি চালানোর জন্য প্রতারণা করছে এবং তারপরে বুলেট গর্তটির চারপাশে একটি লক্ষ্য আঁকবে।

এর সাথে কিছু সমস্যা এড়ানোর এক উপায় হ'ল প্রশিক্ষণ ডেটা সেটটিতে অন্বেষণ করা এবং তারপরে এটি একটি পৃথক "পরীক্ষা" ডেটা সেটে পরীক্ষা করা।


13
পিটারের উত্তরে উন্নতি করা শক্ত। ডেটা ড্রেজিংয়ের ক্ষেত্রে দুর্ভাগ্যজনক সমস্যাটি হ'ল হাইপোথিসগুলি পুরোপুরি পূর্বনির্ধারিত ছিল না, অর্থাত্ 'অনুসন্ধানী' শব্দটি ব্যবহার করা হয়নি বলে লেখকগণের প্রবেশের অভাব। অনেক, অনেক গবেষক প্রকাশযোগ্য কাগজ পেতে ডেটা ড্রেজিং করছেন এবং বৈধতার কোনও প্রয়াস অনুসরণ করছেন না (যা প্রায়শই তাদের হতাশ করবে)।
ফ্রাঙ্ক হ্যারেল 27'14

2
ফ্র্যাঙ্ক হ্যারেলের মন্তব্যটিকে আরও একধাপ এগিয়ে নিয়ে যাওয়া: কিছু তথ্য অনুসন্ধান করা এবং একটি উদ্বেগজনক প্রকাশ প্রকাশ করা বৈধ: একটি উদ্বেগজনক, অনুসন্ধানী অনুসন্ধান যা পুনরুত্পাদন / বৈধ হওয়ার বিষয় subject নেতিবাচক দিকটি হ'ল: যদি অন্য কেউ আপনার অনুসন্ধানগুলি নিশ্চিত করে তবে তারা ভালভাবে গৌরব অর্জন করতে পারে এবং যদি অন্যরা আপনার ফলাফলগুলি নিশ্চিত না করে তবে আপনি একটি বোকা সম্পর্কের দ্বারা বোকা হয়েছিলেন। খারাপ যদি আপনার বড় অহং থাকে। আপনাকে আপনার ডেটা এবং পদ্ধতিগুলি সর্বজনীনভাবে উপলভ্য করতে হবে তা উল্লেখ করার দরকার নেই, যা অনেক ক্ষেত্রেই অনেক অনুশীলনকারী না করেন ont এবং আপনার এগিয়ে যাওয়ার চেয়ে নতুন ডেটা নিয়ে ফলোআপ করা উচিত।
ওয়েইন

11
+1But it's cheating to shoot at a wall and then paint a target around the bullet hole.
ওয়ার্নারসিডি

3
@ পোস্ট-হক ভাল, এটি ভ্রু বাড়াতে হবে না , তবে এটি হতে পারে। ব্রাউজারের নীচে কার চোখের উপর নির্ভর করে!
পিটার ফ্লুম - মনিকা পুনরায়


25

ফিশিং অভিযানের সমস্যাটি হ'ল: যদি আপনি পর্যাপ্ত অনুমান পরীক্ষা করেন তবে তার মধ্যে একটি স্বল্প পি মান দিয়ে নিশ্চিত হয়ে যাবে। আমাকে একটি দৃ concrete় উদাহরণ দিতে দিন।

কল্পনা করুন আপনি একটি মহামারীবিজ্ঞান গবেষণা করছেন study আপনি এমন 1000 রোগী খুঁজে পেয়েছেন যা বিরল অবস্থায় ভুগছে। আপনি জানতে চান যে তাদের মধ্যে কী মিল রয়েছে। সুতরাং আপনি পরীক্ষা শুরু করেন - আপনি দেখতে চান যে এই নমুনায় কোনও নির্দিষ্ট বৈশিষ্ট্যকে উপস্থাপন করা হয়েছে কিনা। প্রাথমিকভাবে আপনি লিঙ্গ, জাতি, নির্দিষ্ট প্রাসঙ্গিক পারিবারিক ইতিহাসের পরীক্ষা করেন (পিতা 50 বছর বয়সের আগে হৃদরোগে মারা গিয়েছিলেন, ...) তবে অবশেষে, "লাঠিগুলি" পাওয়া কোনও সমস্যা খুঁজে পেতে আপনার সমস্যা হচ্ছে, আপনি সমস্ত ধরণের অন্যান্য কারণ যুক্ত করতে শুরু করেন যা ঠিক এই রোগের সাথে সম্পর্কিত হতে পারে :

  • নিরামিষ
  • কানাডা ভ্রমণ করেছেন
  • সমাপ্ত কলেজ
  • বিবাহিত
  • সন্তান আছে
  • বিড়াল আছে
  • কুকুর আছে
  • প্রতি সপ্তাহে কমপক্ষে 5 গ্লাস রেড ওয়াইন পান করুন
    ...

এখন জিনিস এখানে। যদি আমি যথেষ্ট "এলোমেলো" হাইপোথিসিটিস নির্বাচন করি তবে এটির কমপক্ষে কোনও একটিতে এপি মান 0.05 এর চেয়ে কম হবে বলে মনে হতে শুরু করে - কারণ পি মানটির খুব सार হল "নাল হাইপোথিসিসটি বাতিল করার ভুল হওয়ার সম্ভাবনা কোন প্রভাব "। আলাদাভাবে রাখুন - গড়ে প্রতি 20 টি বোগাস অনুমানের জন্য আপনি যা পরীক্ষা করেন, তার মধ্যে একটি আপনাকে <0.05 এর ap প্রদান করবে

এটি খুব ভালভাবে এক্সকেসিডি কার্টুন http://xkcd.com/882/ এ সংক্ষিপ্তসারিত :

এখানে চিত্র বর্ণনা লিখুন

ট্র্যাজেডিটি হ'ল এমনকি যদি কোনও ব্যক্তি লেখক তাত্পর্যটি অনুসন্ধানের জন্য কোনও নমুনায় 20 টি বিভিন্ন হাইপোথিসিস পরীক্ষা না করেন তবে সেখানে 19 জন লেখক একই কাজ করছেন; এবং যিনি একটি সম্পর্ক "সন্ধান" করেছেন তার কাছে এখন লেখার জন্য একটি আকর্ষণীয় কাগজ রয়েছে এবং এটি সম্ভবত প্রকাশের জন্য গৃহীত হবে ...

এটি অপ্রয়োজনীয় অনুসন্ধানের জন্য দুর্ভাগ্যজনক প্রবণতার দিকে পরিচালিত করে। স্বতন্ত্র লেখক হিসাবে এ থেকে রক্ষার সর্বোত্তম উপায় হ'ল বারটি উচ্চতর করা। স্বতন্ত্র ফ্যাক্টরের পরীক্ষা করার পরিবর্তে নিজেকে জিজ্ঞাসা করুন "যদি আমি এন হাইপোথেসিস পরীক্ষা করি তবে কমপক্ষে একটি মিথ্যা পজিটিভ নিয়ে আসার সম্ভাবনা কী"। আপনি যখন "ফিশিং হাইপোথিসিগুলি" সত্যিই পরীক্ষা করছেন আপনি যখন এ থেকে রক্ষা পেতে কোনও Bonferroni সংশোধন করার কথা ভাবতে পারেন - তবে লোকেরা প্রায়শই তা করে না।

ডাঃ আইওনাইডেসের কিছু আকর্ষণীয় কাগজপত্র ছিল - বিশেষত আটলান্টিক মাসিকটিতে এই বিষয়ে বিশেষভাবে রচিত ।

বেশ কয়েকটি অন্তর্দৃষ্টিপূর্ণ উত্তর সহ এই আগের প্রশ্নটিও দেখুন ।

আপনার প্রশ্নের সমস্ত দিকের আরও ভাল সাড়া দিতে আপডেট করুন :

আপনি যদি আশঙ্কা করেন যে আপনি "ফিশিং" হতে পারেন তবে আপনি কী ধারণা অনুমান করতে চান তা সত্যই জানেন না, আপনি অবশ্যই "অনুসন্ধান", "প্রতিলিপি" এবং "নিশ্চিতকরণ" বিভাগগুলিতে আপনার ডেটা বিভক্ত করতে পারেন। নীতিগতভাবে এটি আপনার পূর্বে বর্ণিত ঝুঁকির সাথে আপনার এক্সপোজারকে সীমাবদ্ধ করা উচিত: যদি আপনার অনুসন্ধানের ডেটাতে 0.05 এর এপি মূল্য থাকে এবং প্রতিলিপি এবং নিশ্চিতকরণের ডেটাতে আপনি যদি একইরকম মান পান তবে আপনার ভুল ড্রপ হওয়ার ঝুঁকি রয়েছে। ব্রিটিশ মেডিকেল জার্নালে "এটি সঠিকভাবে করার" একটি দুর্দান্ত উদাহরণ দেখানো হয়েছিল (17+ এর ইমপ্যাক্ট ফ্যাক্টর সহ একটি অত্যন্ত সম্মানিত প্রকাশনা)

শূন্যপরায়ণ মহিলাদের মধ্যে জটিল জটিলতার সাথে যুক্ত কারণগুলির অনুসন্ধান এবং নিশ্চিতকরণ: সম্ভাব্য কোহোর্ট স্টাডি, চ্যাপেল এট আল

এখানে প্রাসঙ্গিক অনুচ্ছেদ:

আমরা 5628 জন মহিলার ডেটাসেটকে তিন ভাগে বিভক্ত করেছি: অস্ট্রেলিয়া এবং নিউজিল্যান্ডের দুই তৃতীয়াংশ মহিলাদের অন্বেষণের ডেটাসেট, এলোমেলোভাবে বেছে নেওয়া হয়েছে (n = 2129); অস্ট্রেলিয়া এবং নিউজিল্যান্ডের মহিলাদের তৃতীয় অংশের স্থানীয় প্রতিলিপি ডেটাসেট (n = 1067); এবং যুক্তরাজ্য এবং আয়ারল্যান্ডের প্রজাতন্ত্রের 2432 ইউরোপীয় মহিলার একটি বাহ্যিক, ভৌগোলিকভাবে স্বতন্ত্র নিশ্চিতকরণ ডেটাসেট t

সাহিত্যে কিছুটা পিছনে ফিরে গেলে, আল্টম্যান এট এনটাইটেল "প্রাগনোসিস অ্যান্ড প্রাগনস্টিক রিসার্চ: একটি প্রাগনোস্টিক মডেলকে বৈধকরণ করা" যা একটি আরও অনেক গভীরতায় যায়, এবং আপনি যাতে পড়ে না যান সেজন্য উপায়ের পরামর্শ দেয় এই ত্রুটি নিবন্ধ থেকে "মূল বিষয়গুলি":

অবৈধ মডেলগুলি ক্লিনিকাল অনুশীলনে ব্যবহার করা উচিত নয় যখন একটি প্রিগনস্টিক মডেল যাচাই করার সময়, ক্রমাঙ্কন এবং বৈষম্যের মূল্যায়ন করা উচিত মডেলটি বিকাশের জন্য ব্যবহৃত আলাদা আলাদা ডেটাতে বৈধকরণ করা উচিত, অন্য কেন্দ্রের রোগীদের দ্বারা সাধারণত মডেলগুলি অনুশীলনে ভাল অভিনয় করতে পারে না উন্নয়ন পদ্ধতির ঘাটতির কারণে বা নতুন নমুনাটি আসল থেকে খুব আলাদা different

বিশেষত অন্যান্য উত্স থেকে প্রাপ্ত ডেটা সহ যাচাইকরণ (আই প্যারাফ্রেজ) করা উচিত - এই পরামর্শটি নোট করুন - অর্থাত্ আপনার উপাত্তকে নির্বিচারে উপসংশে বিভক্ত করা যথেষ্ট নয়, তবে আপনি একটি সেট থেকে সেটটিতে "শেখার" প্রমাণ করতে যা করতে পারেন তা করা উচিত পরীক্ষার বিভিন্ন সেট থেকে ডেটা প্রয়োগ করা যেতে পারে। এটি একটি উচ্চতর বার, তবে এটি আপনার সেটআপে নিয়মতান্ত্রিক পক্ষপাতমূলক "ফলাফল" তৈরি করে এমন ঝুঁকি আরও কমাবে যা স্বতন্ত্রভাবে যাচাই করা যায় না।

এটি একটি অত্যন্ত গুরুত্বপূর্ণ বিষয় - প্রশ্ন জিজ্ঞাসার জন্য আপনাকে ধন্যবাদ!


7
এটি মনে রাখবে
জেনস

2
@ জেনস - এটি যে আমি দিয়েছিলাম তার চেয়ে অনেক বেশি স্পষ্ট ব্যাখ্যা ... এই লিঙ্কটির জন্য ধন্যবাদ। স্বাভাবিক হিসাবে - কি একটু zinger জন্য কার্টুন উপর কার্সার রেখে দেখুন।
ফ্লোরিস

আইওনানাইডস এবং লেহেরার নিবন্ধটি আমাকে এখানে নিয়ে এসেছিল। আপনার উদাহরণটি @ জোনা দ্বারা উল্লিখিত সিমন্স এট- এর উদাহরণের মতো। এটি টাইপ আমি ত্রুটি বৃদ্ধি সম্ভাবনা ব্যাখ্যা একটি খুব ভাল পথ বাকি, কিন্তু আছে অন্য কারণে এটা খারাপ?
পোস্ট-হক

1
সাধারণভাবে ডেটা ড্রেজিংয়ের সমস্যাটি হ'ল আপনি "কার্যকারণ" এর সাথে "পারস্পরিক সম্পর্ক" বিভ্রান্ত করার ঝুঁকিপূর্ণ। প্রথমে যুক্তিসঙ্গত হাইপোথিসিসের সাথে উপস্থিত হয়ে , তারপরে নিশ্চিত হওয়া যে এটি পর্যবেক্ষণগুলি ব্যাখ্যা করতে সহায়তা করে, আপনি দুটি বিভ্রান্ত করার ঝুঁকি সীমাবদ্ধ করে। "বিগ ডেটা" প্রায়শই অন্যভাবে চলে যায় - তাদের মোডাস অপারেন্ডিটি হ'ল "যদি আমি পর্যাপ্ত ডেটা বিশ্লেষণ করি তবে আমি সেই নিদর্শনগুলি দেখতে পাবো যা অতীতে সত্য ছিল এবং ভবিষ্যতে এটি অবিরত থাকবে"। কখনও কখনও এটি কাজ করে, কখনও কখনও এটি হয় না। পরিসংখ্যান কখনই চিন্তাভাবনা এবং বোঝার বিকল্প হয়ে উঠবে না - কেবল কখনও তা নিশ্চিতকরণ
ফ্লোরিস

6
আমি মনে করি না যে প্রাথমিক সমস্যাটি পারস্পরিক সম্পর্ক বনাম কার্যকারণ। অ্যাসোসিয়েশনগুলি পুনরায় প্রতিস্থাপন করে না তা কেবল লুসি পারস্পরিক সম্পর্ক বিশ্লেষণ করা সহজ।
ফ্র্যাঙ্ক হ্যারেল

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.