অনুসন্ধানের ডেটা বিশ্লেষণে টেক্সাসের শার্পশুটারের ত্রুটি

23

আমি প্রকৃতিতে এই নিবন্ধটি পড়ছিলাম যেখানে ডেটা বিশ্লেষণের প্রসঙ্গে কিছু ভুলত্রুটি ব্যাখ্যা করা হয়েছে। আমি লক্ষ্য করেছি যে টেক্সাসের শার্পশুটারের ভ্রান্তি এড়ানো বিশেষত কঠিন ছিল:

তথ্য বিশ্লেষণের সময় অপেক্ষা করা একটি জ্ঞানীয় জাল টেক্সাসের শার্পশুটারের কল্পকাহিনী দ্বারা চিত্রিত: একটি অদক্ষ চিহ্নিতকারী যিনি একটি শস্যাগার পাশের বুলেটের এলোমেলো প্যাটার্নে গুলি চালান, বুলেটের ছিদ্রগুলির সবচেয়ে বড় গুঁড়ির চারপাশে লক্ষ্য টানেন এবং গর্বের সাথে উল্লেখ করেছেন তার সাফল্য।

তাঁর বুলসিয়ে স্পষ্টতই হাস্যযোগ্য - তবে জয়ের ক্ষেত্রে যারা জয়ের ধারাবাহিকতা অবলম্বন করে এমন একটি 'হট হ্যান্ড' বিশ্বাস করে বা লটারির অঙ্কটি যখন সমস্ত বিজোড় সংখ্যা হিসাবে আসে তখন অতিপ্রাকৃত তাত্পর্য দেখায় এমন লোকদের কাছে এই স্পষ্টতা স্পষ্ট নয়।

না এটি গবেষকদের কাছে সর্বদা সুস্পষ্ট। পশলার বলেছেন, "আপনি কেবল ডেটা থেকে কিছুটা উত্সাহ পান এবং তারপরে ভাবেন, ভাল, এটাই নেমে যাওয়ার পথ," “আপনি বুঝতে পারবেন না যে আপনার কাছে ২ different টি ভিন্ন ভিন্ন বিকল্প রয়েছে এবং আপনি এমন একটিটিকে বেছে নিয়েছিলেন যা আপনাকে সর্বাধিক সম্মত বা আকর্ষণীয় ফলাফল দিয়েছে এবং এখন আপনি এমন কোনও কিছুতে নিযুক্ত আছেন যা উপাত্তের নিরপেক্ষ প্রতিনিধিত্ব নয় at "

আমি মনে করি যে এই ধরণের অনুসন্ধানের কাজগুলি সাধারণ এবং প্রায়শই অনুমানগুলি বিশ্লেষণের সেই অংশটির ভিত্তিতে নির্মিত হয়। এই প্রক্রিয়াটিতে নিবেদিত একটি সম্পূর্ণ পদ্ধতির ( EDA ) রয়েছে:

পরিসংখ্যানবিদদের ডেটা অন্বেষণ করতে উত্সাহিত করার জন্য এবং সম্ভবত ডেপুটিসিসকে নতুন তথ্য সংগ্রহ এবং পরীক্ষা-নিরীক্ষার দিকে পরিচালিত করার জন্য জন টুকি দ্বারা অনুসন্ধানের তথ্য বিশ্লেষণকে উত্সাহিত করেছিলেন

দেখে মনে হচ্ছে যে কোনও অন্বেষণ প্রক্রিয়া আগে থেকেই অনুমান ব্যতীত সম্পাদিত হয় যা উদ্দীপক অনুমান তৈরি করার প্রবণ।

লক্ষ্য করুন যে উপরে ইডিএর বর্ণনাটি আসলে আলোচনা করে new data collection and experiments। আমি বুঝতে পারি যে নতুন ডেটা সংগ্রহ করার পরে, তারপরে একটি নিশ্চিতকরণ তথ্য বিশ্লেষণ (সিডিএ) উপযুক্ত। তবে, আমি মনে করি না যে এই পার্থক্যটি খুব স্পষ্টভাবে তৈরি হয়েছে, এবং যদিও ইডিএ এবং সিডিএর পৃথকীকরণ আদর্শ হবে, অবশ্যই কিছু পরিস্থিতিতে রয়েছে যা এটি সম্ভব নয়। আমি যতদূর বলতে পারি যে এই বিচ্ছেদ অনুসরণ করা কঠোরভাবে অস্বাভাবিক এবং বেশিরভাগ অনুশীলনকারীরা ইডিএর দৃষ্টিতে মোটেও সাবস্ক্রাইব করেন না।

সুতরাং আমার প্রশ্নটি হ'ল: ইডিএ (বা ডেটা অন্বেষণের কোনও অনানুষ্ঠানিক প্রক্রিয়া) কি টেক্সাসের শার্পশুটারের ত্রুটির কারণে পড়ে যাওয়ার সম্ভাবনা বেশি করে তোলে?

eda fallacy

— রবার্ট স্মিথ
সূত্র

3

"স্পিউরিয়াস হাইপোথিসিস" বলতে আপনার অর্থ কী তা আমি ঠিক জানি না। অনুসন্ধানের ডেটা বিশ্লেষণের চেতনা হ'ল ডেটাটি দেখার এবং আপনি যে ধরণের প্রত্যাশা করেননি সেগুলি সহ বিভিন্ন ধরণের নিদর্শনগুলির জন্য উন্মুক্ত। কম নয়, আরও বেশি কিছু নয়। অনুসন্ধানের ডেটা বিশ্লেষণের কোনও কিছুইই ভাল ধারণাগুলির গ্যারান্টি দেয় না এবং কিছুই বিধি নিষ্ক্রিয় করে না বা আপনাকে সমালোচনামূলকভাবে চিন্তাভাবনা করে বা আপনি যা করেন অন্তর্নিহিত বিজ্ঞানের সাথে যুক্ত করে (বিস্তৃত জ্ঞান) lets সুতরাং, কেউ কেউ অস্বীকার করেনি এমন জিনিসগুলির জন্য ইডিএর সমালোচনা করার কিছু ঝুঁকি রয়েছে। বা কেউ সমর্থন করে না।

— নিক কক্স

3

ইডিএতে শিখতে ও শেখানো সবচেয়ে কঠিন বিষয়টি হ'ল সঠিকভাবে কী তাত্পর্য পরীক্ষাগুলি (সবচেয়ে আশাবাদী অ্যাকাউন্টগুলিতে) সাহায্য করার কথা রয়েছে: মনোযোগ দেওয়ার পক্ষে যথেষ্ট গুরুত্বপূর্ণ নয় এমন ডেটাগুলিতে বিশদ বিবরণ না দেওয়ার অভ্যাস পেতে । আমি যুক্তি দিয়ে বলব যে ইডিএর অনেকগুলি অ্যাকাউন্ট এই ধারণাটিকে কঠোরভাবে চাপ দেয় না যে কোনও প্যাটার্নটিকে গুরুত্বের সাথে বিবেচনা করার জন্য এটি বিভিন্ন ডেটাসেটে সনাক্তকরণযোগ্য হতে হবে, তবে পরিসংখ্যান বিজ্ঞান জুড়ে এই অবহেলা সাধারণ বিষয়।

— নিক কক্স

1

ধন্যবাদ। সমস্যাটি হ'ল অনেক অনুমানের উত্পন্ন করা এবং একই ডেটাসেটে সেগুলি পরীক্ষা করা সত্যই বিপজ্জনক কারণ আপনি যদি এটি মিথ্যা বলেও মনে করেন তবে এগুলির মধ্যে একটি নিশ্চিত করতেই পারেন। ক্রিওসোট যেমন বর্ণনা করেছেন, পি-মানগুলিতে একটি সংশোধন প্রয়োজন হবে। দুর্ভাগ্যক্রমে, আমি বাস্তবে এটি কখনও দেখিনি।

— রবার্ট স্মিথ

2

১৯৮০ এর দশকের গোড়ার দিকে (ফরাসী) ইডিএ শেখার থেকে, আমি ধারণা পেয়েছি যে একটি শক্তিশালী পরিসংখ্যান কাঠামোর চেয়ে আপনার বিশ্লেষণকে উদ্দেশ্যযুক্ত উপসংহারের দিকে বাঁকানো আসলেই অনেক সহজ ছিল ...

— শি'ন

12

হাইপোথেসিসগুলি উত্পন্ন করার হিসাবে যদি কেউ দৃDA়তার সাথে EDA- র ভূমিকা দেখে , তবে কোনও শার্পশুটার মিথ্যাচার প্রযোজ্য না। যাইহোক, এটি অত্যন্ত গুরুত্বপূর্ণ যে পরবর্তী নিশ্চিতকরণমূলক ট্রায়ালগুলি সত্যই স্বাধীন independent অনেক গবেষক পুল বিশ্লেষণ, মেটা বিশ্লেষণ এবং বায়সিয়ান পদ্ধতিগুলির মতো জিনিসগুলির সাথে "পার্থক্য পুনরুদ্ধার" করার চেষ্টা করেন। এর অর্থ এই যে বিশ্লেষণে উপস্থাপিত কমপক্ষে কিছু প্রমাণের মধ্যে রয়েছে "এলোমেলো বুলেট গর্তের চেনাশোনা"।

— Adamo
সূত্র

5

যথাযথভাবে। এতগুলি অনুসন্ধানের ডেটা বিশ্লেষণের সাথে সমস্যাটি হ'ল একই সেটটি উভয় প্রশিক্ষণের জন্য (বুলেটগুলি কোথায় এসেছিল তা সনাক্ত করে) এবং পরীক্ষার জন্য (তাদের চারপাশে বৃত্ত আঁকতে) ব্যবহৃত হয়।

— মাইকেল কে

11

এটি অনুসন্ধানের তথ্য বিশ্লেষণের একটি খুব নেতিবাচক দৃষ্টিভঙ্গি এঁকে দেয়। যুক্তিটি ভুল না হলেও, এটি সত্যিই বলছে "যখন আমি খুব গুরুত্বপূর্ণ সরঞ্জামটি ভুল উপায়ে ব্যবহার করি তবে কী ভুল হতে পারে?"

ইডিএ পদ্ধতিগুলি থেকে অযৌক্তিক পি-মানগুলি গ্রহণ করার ফলে স্ফীতভাবে প্রকারের প্রথম ত্রুটির হারের দিকে পরিচালিত হবে। তবে আমি মনে করি টুকি এই কাজটি করে কারও সাথে সন্তুষ্ট হবে না। ইডিএর বিষয়টি হ'ল ডেটাতে সম্পর্কের বিষয়ে সুনির্দিষ্ট সিদ্ধান্ত নেওয়া নয়, বরং তথ্য অনুসরণের জন্য ডেটাগুলিতে সম্ভাব্য উপন্যাসের সম্পর্ক সন্ধান করা।

বৃহত্তর বৈজ্ঞানিক প্রক্রিয়ায় এই পদক্ষেপটি ত্যাগ করা মূলত বিজ্ঞানকে ব্যর্থ করে তোলে যা আমাদের তথ্যের নতুন আকর্ষণীয় দিকগুলি কখনই খুঁজে পেতে সক্ষম হয় না, খাঁটি যৌক্তিক ছাড়ের বাইরে। কখনই যৌক্তিকভাবে অনুমান করার চেষ্টা করুন কীভাবে একটি জিনের সেটের ওভার এক্সপ্রেশনটি কোনও কোষের বেঁচে থাকার উপর প্রভাব ফেলবে? ইঙ্গিত: এটি খুব সহজ নয় (আমার কাজকর্মের বায়োইনফর্ম্যাটিকস স্টাফদের মধ্যে আমাদের প্রিয় রসিকতাগুলি যখন একজন পদার্থবিদ তখন জিজ্ঞাসা করেছিলেন "আপনি কেবল বিভিন্ন জিনের মিথস্ক্রিয়াগুলির শারীরিক বৈশিষ্ট্যগুলি কেন অনুকরণ করেন না? এটি একটি সীমাবদ্ধ প্যারামিটার স্পেস।")

ব্যক্তিগতভাবে, আমি মনে করি এটি সম্পর্কে বিভ্রান্তি বৈজ্ঞানিক অগ্রগতিতে একটি দুর্দান্ত ধীর গতির দিকে নিয়ে যেতে পারে। আমি অনেকগুলি নন-স্ট্যাটিস্টিকাল গবেষককে জানি যা উল্লেখ করবে যে তারা প্রাথমিক তথ্যগুলিতে ইডিএ পদ্ধতিগুলি করতে চায় না , কারণ তারা "জানে যে ইডিএ খারাপ হতে পারে"।

উপসংহারে, এটি একেবারেই সত্য যে ইডিএ পদ্ধতি ব্যবহার এবং সেগুলি নিশ্চিতকরণমূলক ডেটা বিশ্লেষণ পদ্ধতি হিসাবে আচরণ করা অবৈধ ফলাফলের দিকে পরিচালিত করবে। তবে, ইডিএর যথাযথ ব্যবহারের অভাবে প্রায় কোনও ফলাফল হতে পারে।

— ক্লিফ এবি
সূত্র

ধন্যবাদ. কিছু লোক অনুসন্ধান বিশ্লেষণে জড়িত থাকার বিষয়ে আমি খুব বেশি চিন্তা করব না। আমি মনে করি এর বিপরীতটি সত্য; অনেক লোক সেই অনুসন্ধান কাজ করে তবে সম্ভবত টাইপের প্রথম ত্রুটিগুলি রোধ করতে পর্যাপ্ত সতর্কতা অবলম্বন না করে আপনি বর্ণনা করেছেন। তবে এটি আকর্ষণীয় যে আপনি ইডিএ সম্পর্কে নেতিবাচক মতামতযুক্ত লোকদের জানেন। যদি তারা প্রাথমিক তথ্যগুলিতে এটি করতে না চান, তবে তারা কখন ইডিএ (বা ইডিএ-মত) কাজ করতে স্বাচ্ছন্দ্য বোধ করবেন?

— রবার্ট স্মিথ

আমার অভিজ্ঞতা হ'ল নন-স্ট্যাটিস্টিকাল গবেষকরা "একাধিক তুলনা সমস্যাযুক্ত" শুনার জন্য অভ্যস্ত এবং তাই তারা যখন আমার কাছে ডেটা নিয়ে আসে, তারা বলতে আগ্রহী যে তারা প্রাথমিক তথ্য এমনকি একাধিক তুলনা করা এড়াতে চান। অবশ্যই, সমস্যার আরও সম্পূর্ণ উপলব্ধি হ'ল আপনি সিডিএ সমীক্ষায় একাধিক তুলনা এড়াতে চান।

— ক্লিফ এবি

আমি বুঝেছি. এটি আরও অর্থবোধ করে।

— রবার্ট স্মিথ

5

দেখে মনে হচ্ছে যে কোনও অন্বেষণ প্রক্রিয়া আগে থেকেই অনুমান ব্যতীত সম্পাদিত হয় যা উদ্দীপক অনুমান তৈরি করার প্রবণ।

আমি এই বিবৃতিটি মেজাজে প্রকাশ করব এবং এটি অন্যরকমভাবে প্রকাশ করব: ডেটার উপর ভিত্তি করে পরীক্ষা করার জন্য একটি হাইপোথিসিস চয়ন করা যদি কেউ সঠিক নাল অনুমানটি ব্যবহার না করে তবে পরীক্ষাকে হীন করে তোলে। প্রকৃতি নিবন্ধটির জোর মূলত এটি হ'ল বিশ্লেষকদের পক্ষে অনুসন্ধানের সময় তারা যে একাধিক তুলনা স্পষ্টভাবে তৈরি করছেন সেগুলি উপেক্ষা করার পক্ষে তাদের পক্ষে সহজ করে তোলা।

প্রকৃতি অ্যান্ড্রু গেলম্যানকে উদ্ধৃত করেছে, তবে এরিক লোকেনের সাথে কেবল এই বিষয়টির সাথে তার কাগজপত্রের উল্লেখ নেই । একটি অংশ:

আমরা এখানে যে কয়েকটি গবেষণাপত্র নিয়ে আলোচনা করেছি সেগুলি সম্পর্কে একাধিক তুলনার সমালোচনা যখন প্রকাশিত হয়, তখন গবেষকরা কখনও সাড়া দেয় না যে তারা তাদের ডেটা প্রসেসিং এবং ডেটা বিশ্লেষণের সমস্ত বিবরণ সময়ের আগে বেছে নিয়েছিল; বরং তারা দাবি করে যে তারা যে বিশেষ ডেটা দেখেছিল তার জন্য তারা কেবল একটি বিশ্লেষণ করেছে । এই প্রতিরক্ষা হিসাবে স্বজ্ঞাত মনে হতে পারে, এটি একাধিক তুলনার মূল ঘনত্ববাদী উদ্বেগকে মোকাবেলা করে না।

আরেকটি:

এটি এমন নয় যে গবেষকরা বিভিন্ন তুলনা করেছেন এবং পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ কয়েকটিকে বেছে নিয়েছিলেন। বরং তারা কোন তুলনামূলক কার্য সম্পাদন করতে হবে সে সম্পর্কে তাদের মনে কিছুটা গঠিত ধারণা দিয়ে শুরু করে এবং তারা সেই ধারণাটি তথ্যের আলোকে পরিমার্জন করে। তারা লাল এবং গোলাপী একটি প্যাটার্ন দেখেছিল এবং তারা রঙগুলি একত্রিত করেছে।

succinctly:

বৈজ্ঞানিক থেকে পরিসংখ্যান অনুমানের এক থেকে একাধিক ম্যাপিং রয়েছে।

এবং আরও একটি, জোর আমার:

আমরা যে সমস্ত ক্ষেত্রে আলোচনা করেছি, প্রকাশিত বিশ্লেষণে এমন একটি গল্প রয়েছে যা বৈজ্ঞানিক অনুমানের সাথে সামঞ্জস্যপূর্ণ যা কাজকে অনুপ্রাণিত করে, তবে অন্যান্য তথ্য নিদর্শনগুলি (যা নমুনার আকারগুলি দেওয়া হলেও সহজেই ঘটতে পারে) স্বাভাবিকভাবেই পরিচালিত হত বিভিন্ন ডেটা বিশ্লেষণ (উদাহরণস্বরূপ, মিথস্ক্রিয়া না করে মূল প্রভাবগুলির উপর দৃষ্টি নিবদ্ধ করা বা তুলনা করার জন্য উপাত্তগুলির পৃথক পছন্দ) যা সমানভাবে গবেষণা অনুমানকে সমর্থন করার জন্য ব্যবহার করা যেতে পারে। ফলাফলটি রয়ে গেছে, যেমনটি আমরা অন্য কোথাও লিখেছি, এলোমেলো নিদর্শন উত্পাদন ও প্রচারের জন্য এক ধরণের মেশিন।

সংক্ষেপে, এটি নয় যে ইডিএ "উত্সাহী হাইপোথিসিস" বাড়ে; এটি হ'ল একই ডেটাসেটের সাথে হাইপোথিসিসের পরীক্ষা করা যা হাইপোথিসিসকে উত্সাহিত করে উদ্দীপক সিদ্ধান্তে নিয়ে যেতে পারে।

আপনি যদি এই প্রতিবন্ধকতা জয় করতে আগ্রহী হন, গেলম্যানের কাছে আরও একটি কাগজ রয়েছে যে যুক্তিযুক্ত যে এই অনেকগুলি সমস্যা একটি বায়েশিয়ার কাঠামোয় অদৃশ্য হয়ে যায় এবং লোকেন প্রবন্ধের কাগজটি " এই প্রবন্ধের প্রথম বিভাগে বর্ণনামূলকভাবে বর্ণিত হিসাবে" প্রকাশনার পূর্ববর্তী প্রতিলিপি "রয়েছে ।

— শন ইস্টার
সূত্র

ধন্যবাদ. অনেক আগ্রহব্যাঞ্জক. আমি একাধিক তুলনায় জেলম্যানের কাগজটি একবার দেখে নেব।

— রবার্ট স্মিথ

3

প্রায় সংজ্ঞা অনুসারে, হ্যাঁ, অবশ্যই সিডিএ ছাড়াই ইডিএ টেক্সাসের শার্পশুটারকে আকর্ষণ করে।

সিডিএ যখন সম্ভব নয় তখন (সম্ভবত আর কোনও ডেটা প্রাপ্ত করা যায় না) আপনি কতটা পরীক্ষাগুলি করেছেন তা সম্পর্কে নিজেকে সৎ করে তোলা এবং একরকম একরকম নিয়োগ দেওয়ার ক্ষেত্রে $p$ - আপনার আবিষ্কারের মূল্য। এমনকি ক্ষেত্রে যখন অনুসন্ধানের স্থানটি নীতিগতভাবে গণনা করা যায়, তবে $p$ -মূল্য গণনা হয় ভুলভাবে করা হয় বা একেবারেই হয় না: কুখ্যাত উদাহরণের জন্য উইকিপিডিয়া দেখুন ।

— ক্রিত্তসোট
সূত্র

ধন্যবাদ. হ্যাঁ, একটি সংশোধন প্রয়োজন হবে। আমি মনে করি না এটিকে গ্রহণ করা খুব সাধারণ বিষয় is

— রবার্ট স্মিথ

3

কেবল ইতিমধ্যে দুর্দান্ত উত্তরে যুক্ত করতে: একটি পূর্ণ সিডিএর মধ্যে একটি মাঝারি ভিত্তি রয়েছে এবং কেবলমাত্র নিজের ইডিএ ফলাফলকে মুখের মান হিসাবে গ্রহণ করবে। একবার আপনি আগ্রহের কোনও সম্ভাব্য বৈশিষ্ট্য (বা হাইপোথিসিস) সন্ধানের পরে ক্রস-বৈধকরণ (সিভি) বা বুটস্ট্র্যাপ সিমুলেশনগুলি সম্পাদন করে এর দৃust়তার অনুভূতি পেতে পারেন। যদি আপনার অনুসন্ধানগুলি কেবল কয়েকটি মূল পর্যবেক্ষণের উপর নির্ভর করে, তবে সিভি বা বুটস্ট্র্যাপ দেখিয়ে দেবে যে অনেকগুলি ভাঁজ (সিভি) বা বুস্ট্রাপ নমুনা পর্যবেক্ষণ করা বৈশিষ্ট্যটি পুনরুত্পাদন করতে ব্যর্থ।

এটি একটি নির্বোধ পদ্ধতি নয়, তবে একটি পূর্ণ সিডিএ যাওয়ার আগে এটি ভাল ইন্টারমিডিয়েট চেক (বা উদ্দেশ্যমূলকভাবে আপনার প্রাথমিক ডেটা পুল থেকে "বৈধকরণ সেট" রাখে)।

0

ডেটা মডেল নির্বাচনের জন্য সবচেয়ে কঠোর মাপদণ্ডটি হ'ল সেই ডিগ্রি যা কোলমোগোরভ জটিলতার উপাত্তের সাথে সংলগ্ন হয় - এটি সেই ডিগ্রি বলতে বলা হয় যে এটি যে ডিগ্রীতে ভ্রান্তভাবে ডেটা সংকুচিত করে। তাত্ত্বিকভাবে, এটি অনুসন্ধানের ডেটা বিশ্লেষণের ফলেই ঘটতে পারে।

" অ্যালগরিদমিক জেনারেটরি মডেল দ্বারা কার্যকারণ ডিকনভোলিউশন " দেখুন

— জেমস বওয়ারি
সূত্র