আমার প্রশ্নটি "বড় ডেটা ব্যবহার করে কীভাবে নমুনা ত্রুটির মূল্যায়ন করবেন", বিশেষত একটি জার্নাল পাবলিকেশনের জন্য পুনরায় জবাব দেওয়া যেতে পারে। এখানে একটি চ্যালেঞ্জ বর্ণনা করার জন্য একটি উদাহরণ।
খুব বড় একটি ডেটাসেট (> 100000 অনন্য রোগী এবং 100 টি হাসপাতাল থেকে তাদের নির্ধারিত ওষুধ) থেকে, আমি নির্দিষ্ট ওষুধ গ্রহণের রোগীদের অনুপাতে অনুমান করতে আগ্রহী। এই অনুপাতটি পাওয়া সহজবোধ্য। এর আত্মবিশ্বাসের ব্যবধান (যেমন, প্যারামেট্রিক বা বুটস্ট্র্যাপ) অবিশ্বাস্যভাবে আঁটসাঁট / সংকীর্ণ, কারণ এন খুব বড়। যদিও এটির বড় আকারের নমুনা আকারের ভাগ্যবান, তবুও আমি কিছু ত্রুটি হওয়ার সম্ভাবনাগুলি মূল্যায়ন, উপস্থাপন এবং / অথবা কল্পনা করার উপায় অনুসন্ধান করছি। যদিও আত্মবিশ্বাসের ব্যবধানে (উদাহরণস্বরূপ, 95% সিআই: .65878 - .65881) লাগানো / কল্পনা করা অসম্পূর্ণ (যদি বিভ্রান্তিমূলক না হয়) মনে হয় তবে অনিশ্চয়তা সম্পর্কে কিছু বক্তব্য এড়ানো অসম্ভব বলে মনে হয়।
আপনি কী মনে করেন দয়া করে আমাকে জানান। আমি এই বিষয়ে যে কোনও সাহিত্যের প্রশংসা করব; এমনকি বড় আকারের নমুনা আকারের সাথে ডেটাতে অতিরিক্ত আত্মবিশ্বাস এড়ানোর উপায়।