ছোট-নমুনা গবেষণায় অনুসন্ধানী ডেটা বিশ্লেষণ এবং ডেটা ড্রেজিংয়ের সাথে কীভাবে মোকাবেলা করতে হবে?


25

অনুসন্ধানের তথ্য বিশ্লেষণ (ইডিএ) প্রায়শই অন্যান্য "ট্র্যাকগুলি" অন্বেষণের দিকে পরিচালিত করে যা অনুমানের প্রাথমিক সেটটির সাথে অগত্যা নয়। আমি সীমিত নমুনার আকার এবং বিভিন্ন প্রশ্নপত্রের মাধ্যমে আর্থ-জনসংখ্যার ডেটা, নিউরোপাইকোলজিকাল বা চিকিত্সাগত স্কেলগুলি - যেমন মানসিক বা শারীরিক কার্যকারিতা, হতাশা / উদ্বেগের স্তর, লক্ষণগুলির চেকলিস্টের মাধ্যমে প্রচুর পরিমাণে তথ্য সংগ্রহের সাথে অধ্যয়নের ক্ষেত্রে এ জাতীয় অবস্থার মুখোমুখি হই )। এটি ঘটে যে ইডিএ কিছু অপ্রত্যাশিত সম্পর্ক হাইলাইট করতে সহায়তা করে ("অপ্রত্যাশিত" যার অর্থ তারা প্রাথমিক বিশ্লেষণ পরিকল্পনায় অন্তর্ভুক্ত ছিল না) যা অতিরিক্ত প্রশ্ন / অনুমানের মধ্যে অনুবাদ করে।

ওভারফিটিংয়ের ক্ষেত্রে যেমন তথ্য ড্রেজিং বা স্নোপিং ফলাফল হয় যা সাধারণ হয় না। যাইহোক, যখন প্রচুর ডেটা পাওয়া যায়, তখন হাইপোথেসিসের একটি সীমিত সেট পোস্ট করা বেশ কঠিন (গবেষক বা চিকিত্সকের জন্য) is

আমি জানতে চাই যে এখানে কোনও স্বীকৃত পদ্ধতি, প্রস্তাবনা বা থাম্বের নিয়ম রয়েছে যা ছোট-নমুনা অধ্যয়নের ক্ষেত্রে ইডিএ বর্ণনা করতে সহায়তা করতে পারে।


আপনার নমুনার আকারটি কেন গুরুত্বপূর্ণ তা আমি নিশ্চিত নই। আপনি কেন ছোট এন এর চেয়ে বড় এন এর চেয়ে আলাদা বলে মনে করেন সে সম্পর্কে সুনির্দিষ্ট যুক্তি সরবরাহ করতে পারেন?
অ্যান্ডি ডব্লিউ

2
@ অ্যান্ডি তারপরে হোল্ডআউট নমুনা এবং / অথবা খুব সীমিত নমুনা আকারের সাথে শ্রেণিক ভারসাম্যহীনতা বিবেচনা করা খুব কঠিন হয়ে পড়ে ( ) সিভি প্রয়োগ করার সময় সাধারণত বৃহত্তর শ্রেণিবিন্যাসের ত্রুটি হার দেয়; কিছু ব্যক্তি বাইভারিয়েট বিতরণ অধ্যয়নরত যখন বিদেশী হিসাবে বিবেচিত হতে পারে; এবং তাদের নিজস্ব পরিমাপ ত্রুটির সাথে যন্ত্রগুলিতে সংগ্রহ করা ব্যবস্থাগুলি কম নির্ভরযোগ্য (ছোট , লার্জ )। একটি নির্দিষ্ট অর্থে, কখনও কখনও একটি শৈল্পিক থেকে অপ্রত্যাশিত সম্পর্ক ছিন্ন করা কঠিন। 13<n<25এনσ
chl

আমার মনে হয় যে আপনার আগ্রহের বিষয়টি কেবল শ্রেণিবিন্যাস হলে আমি সেই অনুভূতিটি বুঝতে পারি। আমি মনে করি কার্যকারিতা নির্ধারণের জন্য ডেটা স্নুপিংয়ের সমস্যাগুলি একই (যেমন সম্পর্কগুলি চিহ্নিত করার সমস্যাগুলি বর্ধিত শক্তি দ্বারা সমাধান করা হয় না)। আমি এই মতামত একটি উত্তরে রচনা করার চেষ্টা করব। কার্যকারিতা নির্ধারণের জন্য ক্রস-বৈধতা ব্যবহার সম্পর্কে আমি ইতিমধ্যে প্রধান ফোরামে একটি প্রশ্ন জিজ্ঞাসা করতে পারি, কারণ আমার ক্ষেত্রে যে কাজটি করে তা কোনও কাজই আমি পাইনি।
অ্যান্ডি ডাব্লু

1
অ্যান্ডি ধন্যবাদ আশা করি, আপনার প্রশ্নটি অনেক আকর্ষণীয় উত্তর পাবে।
chl

উত্তর:


10

আমি মনে করি প্রধান বিষয় যখন যেমন ফলাফল তারা EDA থেকে অপ্রত্যাশিত ফলাফল এবং একটি উপর ভিত্তি করে প্রাথমিক বিশ্লেষণ পরিকল্পনার অংশ ছিল না রিপোর্ট সৎ হতে হয় অবরোহমার্গী হাইপোথিসিস। উদাহরণ: কিছু মানুষ যেমন ফলাফল 'হাইপোথিসিস উৎপাদিত' লেবেল করতে চান প্রথম হিট A থেকে গুগল স্কলার উপর এই শব্দগুচ্ছ জন্য অনুসন্ধান তার বিমূর্ত শেষে বিভাগে নিম্নলিখিত রয়েছে:

যেহেতু এটি একটি "অনুসন্ধানী" বিশ্লেষণ ছিল তাই এই প্রভাবটিকে অনুমান হিসাবে বিবেচনা করা উচিত এবং অন্যান্য পরীক্ষায় সম্ভাব্যভাবে মূল্যায়ন করা উচিত ...

যদিও মনে রাখবেন যে এটি পোস্ট-হক সাবগ্রুপ বিশ্লেষণ হলেও এটি একটি এলোমেলোভাবে নিয়ন্ত্রণ পরীক্ষা থেকে হয়েছিল, পর্যবেক্ষণের কোনও গবেষণা নয়, যাতে সমস্যাটি আরও বেড়ে যায়। ফিলিপ কোল এই ধারণা নিয়ে তীব্র নিন্দা করলেন যে পর্যবেক্ষণমূলক ('এপিডেমিওলজিক') অধ্যয়নগুলি ইচ্ছাকৃতভাবে উস্কানিমূলক তবে বিনোদনমূলক মন্তব্য করে অনুমান তৈরি করতে পারে:

পি কোল হাইপোথিসিস উত্পাদক মেশিন। 1993 এপিডেমিওলজি ; 4 : 271-273।


+1 লিঙ্কটির জন্য ধন্যবাদ (এবং পিছনে)। আমি এই দিকটি দেখব।
chl

13

আগ্রহী পাঠকের জন্য আমি ডেটা ড্রেজিং এবং ক্লিনিকাল স্টাডি সম্পর্কে কিছু উল্লেখ রেখেছি । এটি কেবলমাত্র সেরা প্রশ্নের উত্তরের উত্তর প্রসারিত করার উদ্দেশ্যে is আমি শুধু একাধিক তুলনা বা নকশা বিষয়ে মনোযোগ নিবন্ধ এড়াতে যদিও একাধিক এন্ড পয়েন্ট সঙ্গে অধ্যয়ন বর্তমান চ্যালেঞ্জ ও বিতর্কিত আলোচনার (দীর্ঘ সম্পর্কে Rothman দাবি পর অব্যাহত চেষ্টা করেছি, বেহুদা সমন্বয় , এপিডেমোলোজি 1990, 1: 43-46; অথবা Feise এর পর্যালোচনা দেখুন বিএমসি মেডিকেল গবেষণা পদ্ধতি 2002, 2: 8)।

আমার বোধগম্যতা হল, যদিও আমি অনুসন্ধানের তথ্য বিশ্লেষণের কথা বলেছি , আমার প্রশ্নটি সাধারণত হাইপোথিসিস-চালিত পরীক্ষার সমান্তরালে, ডেটা মাইনিংয়ের ব্যবহারকে এর সম্ভাব্য ক্ষতির সাথে সম্পর্কিত করে addresses

  1. কোহ, এইচসি এবং টান, জি (2005)। স্বাস্থ্যসেবাতে ডেটা মাইনিং অ্যাপ্লিকেশনস্বাস্থ্যসেবা তথ্য পরিচালনার জার্নাল , 19 (2), 64-72।
  2. আওনানিডিস, জেপিএ (2005)। কেন সর্বাধিক প্রকাশিত গবেষণার অনুসন্ধানগুলি মিথ্যাপিএলওএস মেডিসিন , 2 (8), ই 124।
  3. অ্যান্ডারসন, ডিআর, লিংক, ডাব্লুএ, জনসন, ডিএইচ, এবং বার্নহ্যাম, কেপি (2001)। ডেটা বিশ্লেষণের ফলাফল উপস্থাপনের জন্য পরামর্শগুলিজার্নাল অফ ওয়াইল্ডলাইফ ম্যানেজমেন্ট , 65 (3), 373-378। - এটি অনুমানের প্রাথমিক সেট ছাড়িয়ে ডেটা-চালিত অন্বেষণ / মডেলিংকে স্বীকৃতি দিতে হবে এমন বিষয়ে @ অনেস্টপের মন্তব্যটি প্রতিধ্বনিত করে
  4. মিশেলস, কেবি এবং রোজনার, বিএ (1996)। ডেটা ট্রলিং: মাছের কাছে না মাছের কাছেল্যানসেট , 348, 1152-1153।
  5. লর্ড, এসজে, গেবস্কি, ভিজে, এবং কেচ, এসি (2004)। ক্লিনিকাল পরীক্ষায় একাধিক বিশ্লেষণ: শব্দ বিজ্ঞান বা ডেটা ড্রেজিং? অস্ট্রেলিয়ার মেডিকেল জার্নাল , 181 (8), 452-454।
  6. স্মিথ, জিডি এবং ইব্রাহিম, এস (2002)। ডেটা ড্রেজিং, পক্ষপাত, বা বিভ্রান্তিকরবিএমজে , 325, 1437-1438।
  7. আফশারটোস, ডি এবং ওল্ফ, এম (2007) মাল্টিলেভেল এবং মিশ্র প্রভাবগুলির মডেলগুলিতে 'ডেটা স্নুপিং' এড়ানোরয়্যাল স্ট্যাটিস্টিকাল সোসাইটির জার্নাল এ , 170 (4), 1035–1059
  8. অ্যান্ডারসন, ডিআর, বার্নহ্যাম, কেপি, গোল্ড, ডাব্লুআর, এবং চেরি, এস (2001)। আসলে উদ্দীপনাযুক্ত প্রভাবগুলি সম্পর্কে উদ্বেগউইডলাইফ সোসাইটি বুলেটিন , 29 (1), 311-316।

আমি এখন পর্যন্ত যা পড়েছি এটি এটির পুনরুদ্ধার। স্পষ্টতই, আমি আমার নিজের উত্তর গ্রহণ করব না । অন্য কোন চিন্তা অনেক প্রশংসা করা হবে।
chl

আমার উত্তর চি গ্রহণ করার জন্য ধন্যবাদ, যদিও আপনার নিজস্ব রেফারেন্স তালিকাটি আরও ভাল এবং আরও সাম্প্রতিক। আমি আমার হার্ড ড্রাইভে তাদের পেয়েছি বলে তাদের সত্যিই আমার মধ্যে
কয়েকজনের কথা চিন্তা করা উচিত ছিল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.