নমুনার আকার যখন খুব বড় হয় তখন আত্মবিশ্বাসের ব্যবধানগুলি


14

আমার প্রশ্নটি "বড় ডেটা ব্যবহার করে কীভাবে নমুনা ত্রুটির মূল্যায়ন করবেন", বিশেষত একটি জার্নাল পাবলিকেশনের জন্য পুনরায় জবাব দেওয়া যেতে পারে। এখানে একটি চ্যালেঞ্জ বর্ণনা করার জন্য একটি উদাহরণ।

খুব বড় একটি ডেটাসেট (> 100000 অনন্য রোগী এবং 100 টি হাসপাতাল থেকে তাদের নির্ধারিত ওষুধ) থেকে, আমি নির্দিষ্ট ওষুধ গ্রহণের রোগীদের অনুপাতে অনুমান করতে আগ্রহী। এই অনুপাতটি পাওয়া সহজবোধ্য। এর আত্মবিশ্বাসের ব্যবধান (যেমন, প্যারামেট্রিক বা বুটস্ট্র্যাপ) অবিশ্বাস্যভাবে আঁটসাঁট / সংকীর্ণ, কারণ এন খুব বড়। যদিও এটির বড় আকারের নমুনা আকারের ভাগ্যবান, তবুও আমি কিছু ত্রুটি হওয়ার সম্ভাবনাগুলি মূল্যায়ন, উপস্থাপন এবং / অথবা কল্পনা করার উপায় অনুসন্ধান করছি। যদিও আত্মবিশ্বাসের ব্যবধানে (উদাহরণস্বরূপ, 95% সিআই: .65878 - .65881) লাগানো / কল্পনা করা অসম্পূর্ণ (যদি বিভ্রান্তিমূলক না হয়) মনে হয় তবে অনিশ্চয়তা সম্পর্কে কিছু বক্তব্য এড়ানো অসম্ভব বলে মনে হয়।

আপনি কী মনে করেন দয়া করে আমাকে জানান। আমি এই বিষয়ে যে কোনও সাহিত্যের প্রশংসা করব; এমনকি বড় আকারের নমুনা আকারের সাথে ডেটাতে অতিরিক্ত আত্মবিশ্বাস এড়ানোর উপায়।


7
নন-স্যাম্পলিংয়ের ত্রুটিগুলি অপরিবর্তিত রয়েছে তা স্মরণ করে আপনি অতিরিক্ত আত্মবিশ্বাস এড়াতে পারেন। স্যাম্পলিং এবং পরিমাপের ক্ষেত্রে যদি পক্ষপাতিত্ব থাকে তবে তারা এখনও সেখানে রয়েছে। এছাড়াও, আপনি অনন্য গণনা করছেন কিনা (আমি বরং "স্বতন্ত্র" বলব) রোগী বা পর্যালোচনা অন্য কোনও উপায়ে সংজ্ঞায়িত করা হয়েছে, সেখানে একই ধরণের রোগীর জন্য ওষুধের সংযোগকারী ক্লাস্টার স্ট্রাকচার এবং ড্রাগগুলি একসাথে যেভাবে দেওয়া হয়, যা রয়েছে সহজ আত্মবিশ্বাস ব্যবধান গণনা দ্বারা গণ্য করা হয় না। অন্যান্য ডেটাসেটের সাথে তুলনা করা এবং ডেটা উত্পাদনের ডকুমেন্টিংয়ের বাইরে এটি কীভাবে মাপানো যায় সে সম্পর্কে আমার কোনও সমাধান নেই।
নিক কক্স

উত্তর:


10

এই সমস্যাটি আমার কিছু গবেষণায় উঠে এসেছে (একটি মহামারী মডেলার হিসাবে, আমার নিজের ডেটা সেট তৈরি করার বিলাসিতা রয়েছে এবং প্রচুর পরিমাণে কম্পিউটারের সাথে সেগুলি মূলত নির্বিচারে আকারের হতে পারে few কয়েকটি চিন্তা:

  • রিপোর্টিংয়ের ক্ষেত্রে, আমি মনে করি আপনি এটি করতে পারেন আরও সঠিক আত্মবিশ্বাসের অন্তরগুলি প্রতিবেদন , যদিও এর উপযোগটি বৈধভাবে সামান্য প্রশ্নবিদ্ধ। তবে এটি ভুল নয়, এবং এই আকারের ডেটা সেট সহ, আমি মনে করি না যে উভয়কেই দাবি আত্মবিশ্বাসের ব্যবস্থাগুলির প্রতিবেদন করা হবে এবং তারপরে অভিযোগ করুন যে আমরা সত্যই তাদের সবার মতো দুটি সংখ্যার মতো করে করব, ইত্যাদি etc.
  • অতিরিক্ত আত্মবিশ্বাস এড়ানোর শর্তে, আমি মনে করি কীটি হ'ল যথার্থতা এবং remember সঠিকতা ভিন্ন জিনিস এবং দুটি গলিয়ে মিশিয়ে বের করার চেষ্টা এড়ানো। অনুমানকৃত প্রভাবটি কতটা নিখুঁত হয় তা অনুভব করা এবং এটি ভুলও হতে পারে বলে ভেবে দেখবেন না যে আপনার কাছে একটি বিশাল নমুনা রয়েছে, এটি খুব লোভনীয়। আমার মনে হয় এটিই মূল - একটি পক্ষপাতদুষ্ট ডেটা সেটটিতে N = 10, বা 100, বা 1000 বা 100,000 এ পক্ষপাতিত্ব থাকবে।

বৃহত ডেটা সেটগুলির পুরো উদ্দেশ্যটি সুনির্দিষ্ট অনুমান সরবরাহ করা, তাই আমি মনে করি না যে আপনাকে সেই নির্ভুলতা থেকে দূরে সরে যাওয়া দরকার। তবে আপনাকে মনে রাখতে হবে যে কেবলমাত্র বড় পরিমাণে খারাপ ডেটা সংগ্রহ করে আপনি খারাপ ডেটা আরও ভাল করতে পারবেন না।


আমি মনে করি খারাপ ডেটাগুলির একটি বিশাল পরিমাণ খারাপ ডেটার ক্ষুদ্র পরিমাণের চেয়ে এখনও ভাল।
আকসাকাল

@ আকসাল কেন? একটি স্পষ্টভাবে ভুল উত্তর এখনও ভুল wrong
ফোমাইট

@ ফোমাইট - হ্যাঁ, তবে আপনি আরও আত্মবিশ্বাসী যে ভুল হয়েছে :)
ডানকান

6

এই সমস্যাটি আমার নিজের পাণ্ডুলিপিগুলিতে উঠে এসেছে।

১. প্রতিবেদনের বিকল্পগুলি: যদি আপনার কাছে রিপোর্ট করার জন্য মাত্র একটি বা কয়েকটি সিআই থাকে, তবে "(উদাঃ 95% সিআই: .65878 - .65881)" প্রতিবেদন করা অত্যধিক ভার্জোজ নয়, এবং এটি সিআইয়ের যথার্থতা হাইলাইট করে। তবে আপনার যদি অসংখ্য সিআই থাকে তবে কম্বল স্টেটমেন্টটি পাঠকের পক্ষে আরও সহায়ক হতে পারে। উদাহরণস্বরূপ, আমি সাধারণত "এই নমুনা আকারের সাথে কিছু বলব, প্রতিটি অনুপাতের জন্য 95% আত্মবিশ্বাসের মার্জিন +/- .010 এর চেয়ে কম ছিল" " আমি সাধারণত পদ্ধতিতে বা টেবিল বা চিত্রের ক্যাপশনে বা উভয় ক্ষেত্রেই এরকম কিছু প্রতিবেদন করি।

২. বড় আকারের নমুনা আকারের সাথেও "অতিরিক্ত আত্মবিশ্বাস" এড়ানো: ১০০,০০০ এর নমুনা সহ, অনুপাতের জন্য সিআই-র প্রতিবেদন করার সময় কেন্দ্রীয় সীমাবদ্ধ তত্ত্ব আপনাকে সুরক্ষিত রাখবে। সুতরাং, আপনি যে পরিস্থিতিতে বর্ণনা করেছেন তাতে আপনার ঠিক হওয়া উচিত, যদি না অন্য ধারনা লঙ্ঘন না হয় তবে আমি অবহিত নই (যেমন, লঙ্ঘিত আইড)।


0

আত্মবিশ্বাসের ব্যবধানগুলির প্রতিবেদন করবেন না। পরিবর্তে সঠিক নমুনার আকার এবং অনুপাত রিপোর্ট করুন। পাঠক তার ইচ্ছামতো যে কোনও উপায়ে তার নিজস্ব সিআই গণনা করতে সক্ষম হবেন।


4
কেন এই খুব যুক্তিযুক্ত পরিমাণগত তথ্য সমস্ত রিপোর্টিং জন্য প্রয়োগ করা উচিত নয় ?
whuber

@ শুভ, ভাল প্রশ্ন। আমি সবাই প্রজননযোগ্য গবেষণার জন্য আছি, আশা করি সবাই তাদের ডেটাসেট প্রকাশ করুক।
আকসকল

6
আমি এটিকে পরামর্শ হিসাবে নেওয়া উচিত নয়। এমনকি প্রত্যেকে তাদের ডেটাসেট প্রকাশ করলেও তারা যদি তাদের বিশ্লেষণ সরবরাহ করতে ব্যর্থ হয় তবে তারা তাদের বৈজ্ঞানিক দায়িত্বগুলি বাতিল করবে - এবং এতে অনিশ্চয়তার বিশ্লেষণ অন্তর্ভুক্ত রয়েছে। মনে হচ্ছে আপনি এমন কোনও দিকে যাচ্ছেন যা বিজ্ঞানীরা কোনও প্রকার বিশ্লেষণ ছাড়াই ডেটা প্রকাশ ছাড়া কিছুই করেন না এমন পরামর্শ দিয়ে যৌক্তিকভাবে শেষ হয়ে যাবে! এটি সিআই-র প্রতিবেদন না হওয়ার সুপারিশের অভিযোগ হিসাবে অভিযুক্ত s এটি এর বিপরীতে ইঙ্গিত দেয় যে কোনও ধরণের পরিসংখ্যান বিশ্লেষণ কোনও অবস্থাতেই দেওয়া উচিত, নমুনা আকার নির্বিশেষে।
whuber

0

100 টি বিভিন্ন হাসপাতালের অনুপাত একই গড় মানের সাথে রূপান্তর না করে এমন সম্ভাবনা বিবেচনা করুন। আপনি গ্রুপ-বৈকল্পিক জন্য পরীক্ষা করেছেন? যদি হাসপাতালের মধ্যে একটি পরিমাপযোগ্য পার্থক্য থাকে, তবে অনুমান করা হয় যে নমুনাগুলি একটি সাধারণ সাধারণ বিতরণ থেকে উত্পন্ন হয় সমর্থন করা হয় না এবং আপনার এগুলি পোলাও উচিত নয়।

তবে যদি আপনার ডেটা সত্যই বিতরণ করা বড় আকারের নমুনা থেকে আসে তবে আপনি তথ্যের সম্পত্তি হিসাবে "অনিশ্চয়তা সম্পর্কে বিবৃতি" খুঁজে পাচ্ছেন না, তবে কেন বা আপনার পরিসংখ্যানকে সাধারণীকরণ করা উচিত তা সম্পর্কে প্রতিফলনের কারণে - সংগ্রহের কিছু সহজাত পক্ষপাত, বা স্ট্যাটারিটির অভাব ইত্যাদি যা আপনার উল্লেখ করা উচিত।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.