এই অবিচ্ছিন্ন ডেটার জন্য কি বুটস্ট্র্যাপিং উপযুক্ত?


11

আমি সম্পূর্ণ নবাগত :)

আমি প্রায় 745,000 জনসংখ্যার 10,000 টির একটি নমুনা আকার নিয়ে একটি গবেষণা করছি। প্রতিটি নমুনা একটি "শতাংশের মিল" উপস্থাপন করে। নমুনাগুলির সর্বাধিক সংখ্যা প্রায় 97% -98% এর মধ্যে রয়েছে তবে কয়েকটি 60% থেকে 90% এর মধ্যে, অর্থাত্ বিতরণটি ভারী নেতিবাচকভাবে স্কিউড। প্রায় 0.6% ফলাফলের 0%, তবে এগুলি নমুনা থেকে পৃথকভাবে চিকিত্সা করা হবে।

সমস্ত 10,000 স্যাম্পলগুলির গড় গড় 97.7%, এবং কেবলমাত্র এক্সেলের মধ্যে, স্টাডিডেভ 3.20। আমি বুঝতে পারি যে এখানে স্টাডেডিভ সত্যিকার অর্থে প্রযোজ্য নয় কারণ ফলাফলগুলি সাধারণত বিতরণ করা হয় না (এবং কারণ +3.20 আপনাকে 100% এর উপরে রাখবে!)

আমার প্রশ্নগুলি হ'ল:

  1. বুটস্ট্র্যাপিং (আমার জন্য একটি নতুন ধারণা) উপযুক্ত?
  2. আমি কি সঠিকভাবে বুটস্ট্র্যাপিং করছি :)
  3. পর্যাপ্ত পরিমাণের নমুনা কী?

আমি যা করছি তা আমার 10,000 টি ফলাফল পুনরায় মডেলিং (প্রতিস্থাপন সহ) করা এবং একটি নতুন গড় গণনা করা। আমি এটি কয়েক হাজার বার করি এবং প্রতিটি গড় একটি অ্যারেতে সঞ্চয় করি। আমি তখন "মাধ্যমের গড়" গণনা করি এবং এটি আমার পরিসংখ্যানগত ফলাফল। 99% সিআই কাজ করার জন্য, আমি 0.5% -th মান এবং 99.5% -th মান নির্বাচন করি এবং এটি একটি খুব শক্ত রেঞ্জ তৈরি করে: 97.4% - 98.0%। এটি কি একটি বৈধ ফলাফল বা আমি কিছু ভুল করছি?

নমুনা আকার হিসাবে, আমি জনসংখ্যার প্রায় 1.3% নমুনা দিচ্ছি - এটি "যথেষ্ট" কিনা আমার কোনও ধারণা নেই। আমার নমুনা জনসংখ্যার প্রতিনিধি কিনা আমি কীভাবে জানব? আদর্শভাবে, আমি যে গড়টির সাথে +/- 0.50% শতাংশ পয়েন্ট (অর্থাৎ 97.2% - 98.2%) তার প্রতি 99% আত্মবিশ্বাসী হতে চাই।

কোনও পরামর্শের জন্য আগাম ধন্যবাদ!

উত্তর:


19

স্ট্যান্ডার্ড বিচ্যুতি এখানে অন্য কোথাও যেমন প্রযোজ্য: এটি ডেটা ছড়িয়ে দেওয়ার বিষয়ে দরকারী তথ্য দেয়। বিশেষত, নমুনা আকারের বর্গমূল দ্বারা বিভক্ত এসডি একটি মানগত ত্রুটি: এটি গড়ের নমুনা বিতরণ ছড়িয়ে দেওয়ার অনুমান করে। আসুন গণনা করা যাক:

3.2%/10000=0.032%=0.00032.

আপনি যে- নির্ভুলতা খুঁজছেন তার চেয়ে ছোট --far ছোট ।±0.50%

যদিও তথ্যগুলি সাধারণত বিতরণ করা হয় না, স্যাম্পলটির গড়টি সাধারণত বিতরণের খুব কাছাকাছি কারণ নমুনার আকারটি এত বড়। উদাহরণস্বরূপ, এখানে আপনার একই বৈশিষ্ট্যযুক্ত একটি নমুনার একটি হিস্টোগ্রাম এবং তার ডানদিকে একই জনগোষ্ঠীর এক হাজার অতিরিক্ত নমুনার মাধ্যমের হিস্টোগ্রাম।

চিত্র 1

এটিকে নরমালের খুব কাছে মনে হচ্ছে, তাই না?

সুতরাং, যদিও এটি প্রদর্শিত হচ্ছে আপনি সঠিকভাবে বুটস্ট্র্যাপিং করছেন, বুটস্ট্র্যাপিংয়ের দরকার নেই: একটি সাধারণ প্রতিচ্ছবি আধ্যাত্মিক ব্যবস্থার যথারীতি যথাযথ পার্সেন্টাইলকে স্ট্যান্ডার্ড সাধারণ বিতরণ দিয়ে গুণিত করে স্ট্যান্ডার্ড ত্রুটি গুণিত করা হয় (থেকে বুদ্ধি, ) এবং সেই দূরত্বকে উভয় দিকে নিয়ে যাচ্ছে। আপনার ক্ষেত্রে, , সুতরাং আস্থা অন্তর100α%Z1α/200Z1α/200=2.575899%

(0.9772.5758(0.032)/10000, 0.977+2.5758(0.032)/10000)=(97.62%,97.78%).

নমুনা আকারের সমাধান করার জন্য এই সম্পর্কটিকে উল্টিয়ে দিয়ে যথেষ্ট পরিমাণের নমুনা আকার পাওয়া যায়। এখানে এটি আমাদের জানায় যে আপনার চারপাশে একটি নমুনার আকার প্রয়োজন

(3.2%/(0.5%/Z1α/200))2272.

এটি যথেষ্ট ছোট যা আমরা এই উপসংহারটি পুনরায় পরীক্ষা করতে চাইতে পারি যে গড়ের নমুনা বিতরণটি সাধারণ। আমি আমার জনসংখ্যা থেকে একটি নমুনা এঁকেছি এবং এর গড় বুটস্ট্র্যাপ করেছি ( পুনরাবৃত্তির জন্য):99992729999

চিত্র ২

নিশ্চিতভাবেই, এটি সাধারণ দেখায়। আসলে, এর বুটস্ট্র্যাপড আত্মবিশ্বাসের ব্যবধানটি এর সাধারণ-তত্ত্ব সিআইয়ের সাথে প্রায় একই রকম ।( 97.19 % , 98.24 % )(97.16%,98.21%)(97.19%,98.24%)

এই উদাহরণগুলো দেখায় হিসাবে, পরম নমুনা আকার বদলে জনসংখ্যার আকার অনুপাতে অনুমান সঠিকতা নির্ধারণ করে। (একটি চূড়ান্ত কিন্তু স্বজ্ঞাত উদাহরণ হ'ল সমুদ্রের একফোঁটা সমুদ্রের নুনের ঘনত্বের সঠিক অনুমান দিতে পারে, যদিও সেই ড্রপটি সমস্ত সমুদ্রের নলের মতো ছোট্ট একটি ভগ্নাংশ)) আপনার বর্ণিত উদ্দেশ্যে, একটি নমুনা অর্জন করার জন্য এর (যা বেশি প্রয়োজন বার নমুনা যতটা কাজ হিসাবে ) Overkill হয়।36 2721000036272


Rএই বিশ্লেষণগুলি সম্পাদন করার কোড এবং এই গ্রাফিকগুলি অনুসরণ করে। এটি এর এবং এসডি সহ বিটা বিতরণকারী জনগোষ্ঠীর নমুনা ।0.0320.9770.032

set.seed(17)
#
# Study a sample of 10,000.
#
Sample <- rbeta(10^4, 20.4626, 0.4817)
hist(Sample)
hist(replicate(10^3, mean(rbeta(10^4, 20.4626, 0.4817))),xlab="%",main="1000 Sample Means")
#
# Analyze a sample designed to achieve a CI of width 1%.
#
(n.sample <- ceiling((0.032 / (0.005 / qnorm(1-0.005)))^2))
Sample <- rbeta(n.sample, 20.4626, 0.4817)
cat(round(mean(Sample), 3), round(sd(Sample), 3)) # Sample statistics
se.mean <- sd(Sample) / sqrt(length(Sample))      # Standard error of the mean
cat("CL: ", round(mean(Sample) + qnorm(0.005)*c(1,-1)*se.mean, 5)) # Normal CI
#
# Compare the bootstrapped CI of this sample.
#
Bootstrapped.means <- replicate(9999, mean(sample(Sample, length(Sample), replace=TRUE)))
hist(Bootstrapped.means)
cat("Bootstrap CL:", round(quantile(Bootstrapped.means, c(0.005, 1-0.005)), 5))

2
আমি জানি এই পোস্টটি বেশ পুরানো তবে এটি অত্যন্ত সহায়ক। আপনার জ্ঞান ভাগাভাগি করার জন্য ধন্যবাদ।
RDizzl3
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.