বুটস্ট্র্যাপযুক্ত রেসপন্স থেকে নেওয়া আত্মবিশ্বাস ব্যবধানের অর্থ কী?


38

আমি এই সাইটে বুটস্ট্র্যাপিং এবং আত্মবিশ্বাসের ব্যবধানগুলি সম্পর্কে অসংখ্য প্রশ্ন দেখছি, তবে আমি এখনও বিভ্রান্ত। আমার বিভ্রান্তির কারণ সম্ভবতঃ আমি আমার পরিসংখ্যান জ্ঞানে যথেষ্ট উত্তর বোধ করি না। আমি একটি পরিসংখ্যান সংক্রান্ত পরিসংখ্যান কোর্সের প্রায় অর্ধেক পথ এবং আমার গণিত স্তরটি কেবল দ্বিতীয় মধ্য-বীজগণিত সম্পর্কে, সুতরাং সেই স্তরের অতীতের যে কোনও কিছুই আমাকে বিভ্রান্ত করে। যদি এই সাইটের কোনও জ্ঞানী লোক আমার স্তরে এই সমস্যাটি ব্যাখ্যা করতে পারে তবে এটি অত্যন্ত সহায়ক হবে।

আমরা ক্লাসে শিখছিলাম যে কীভাবে বুটস্ট্র্যাপ পদ্ধতিটি ব্যবহার করে পুনরায় নমুনা নেওয়া যায় এবং কিছু পরিসংখ্যান যা আমরা পরিমাপ করতে চাই তার জন্য একটি আস্থা অন্তর তৈরি করতে সেগুলি ব্যবহার করে। সুতরাং উদাহরণস্বরূপ, বলুন যে আমরা একটি বৃহত জনগোষ্ঠীর কাছ থেকে একটি নমুনা নিয়েছি এবং দেখেছি যে 40% তারা প্রার্থী এ'র পক্ষে ভোট দেবেন বলে আমরা মনে করি যে এই নমুনাটি মূল জনগোষ্ঠীর একটি খুব সঠিক প্রতিচ্ছবি, সেই ক্ষেত্রে আমরা এর থেকে উদাহরণ গ্রহণ করতে পারি এটি জনসংখ্যা সম্পর্কে কিছু আবিষ্কার করতে। সুতরাং আমরা প্রতিকার গ্রহণ করি এবং খুঁজে পাই (একটি 95% আত্মবিশ্বাসের স্তর ব্যবহার করে) ফলস্বরূপ আত্মবিশ্বাসের ব্যবধান 35% থেকে 45% পর্যন্ত থাকে।

আমার প্রশ্ন, এই আত্মবিশ্বাসের ব্যবধানটি আসলে কী বোঝায় ?

আমি পড়তে থাকি যে (ফ্রিকোয়েন্সিস্ট) কনফিডেন্স ইন্টারভাল এবং (বায়েসিয়ান) বিশ্বাসযোগ্য অন্তরগুলির মধ্যে পার্থক্য রয়েছে। যদি আমি সঠিকভাবে বুঝতে বিশ্বাসযোগ্য ব্যবধান বলতে হবে সেখানে 95% সম্ভাবনা যে যে আমাদের অবস্থা সত্য পরামিতি দেওয়া অন্তর (35% -45%) মধ্যে, যখন একটি আস্থা ব্যবধান সেখানে যে একটি 95% বলতে হবে এই পরিস্থিতির ধরণ (তবে আমাদের পরিস্থিতিটি বিশেষত বিশেষভাবে প্রয়োজন হয় না) আমরা যে পদ্ধতিটি ব্যবহার করছি তা সঠিকভাবে জানাতে পারে যে প্রকৃত প্যারামিটারটি প্রদত্ত ব্যবধানের মধ্যে রয়েছে।

এই সংজ্ঞাটি সঠিক বলে ধরে নিচ্ছি, আমার প্রশ্নটি: বুটস্ট্র্যাপ পদ্ধতিটি ব্যবহার করে নির্মিত আত্মবিশ্বাসের ব্যবধানগুলি ব্যবহার করার সময় আমরা "সত্য পরামিতি" কী? আমরা কি (ক) মূল জনসংখ্যার সত্য পরামিতি , বা (খ) নমুনার সত্য পরামিতি উল্লেখ করছি ? যদি (ক) হয়, তবে আমরা বলব যে বুটস্ট্র্যাপ পদ্ধতিতে 95% সময় সঠিকভাবে মূল জনসংখ্যা সম্পর্কে সত্য বিবৃতি দেবে। তবে আমরা কীভাবে এটি জানতে পারি? পুরো বুটস্ট্র্যাপ পদ্ধতিটি অনুমানের উপর নির্ভর করে নাযে আসল নমুনাটি এটি থেকে নেওয়া জনসংখ্যার সঠিক প্রতিচ্ছবি? (খ) তবে আমি আত্মবিশ্বাসের ব্যবধানের অর্থ মোটেও বুঝতে পারি না। আমরা ইতিমধ্যে নমুনার সত্য পরামিতি জানি না? এটি একটি সরল পরিমাপ!

আমি আমার শিক্ষকের সাথে এটি নিয়ে আলোচনা করেছি এবং তিনি যথেষ্ট সহায়ক ছিলেন। তবে আমি এখনও বিভ্রান্ত।

উত্তর:


28

যদি বুটস্ট্র্যাপিং পদ্ধতি এবং আত্মবিশ্বাসের ব্যবধানটি সঠিকভাবে সম্পাদিত হয় তবে এর অর্থ অন্য কোনও আত্মবিশ্বাসের ব্যবধানের সমান। একটি ঘনত্ববাদী দৃষ্টিকোণ থেকে, একটি 95% সিআই বোঝায় যে পুরো গবেষণাটি যদি একইভাবে বিজ্ঞাপন ইনফিনিটামটির পুনরাবৃত্তি করা হয়, তবে এইভাবে গঠিত 95% আত্মবিশ্বাসের অন্তরগুলি সত্যিকার মানকে অন্তর্ভুক্ত করবে। অবশ্যই, আপনার অধ্যয়ন বা কোনও প্রদত্ত স্বতন্ত্র গবেষণায়, আত্মবিশ্বাসের ব্যবধানটি হয় সত্যিকারের মানকে অন্তর্ভুক্ত করবে বা না, তবে আপনি কোনটি জানেন না। এই ধারণাগুলি আরও বুঝতে, এটি আপনাকে আমার উত্তর এখানে পড়তে সহায়তা করতে পারে: কেন একটি 95% আত্মবিশ্বাস অন্তর্বর্তী (সিআই) মানে না থাকার 95% সুযোগ বোঝায়?

আপনার আরও প্রশ্ন সম্পর্কে, 'সত্য মান' প্রাসঙ্গিক জনতার প্রকৃত প্যারামিটারকে বোঝায়। (নমুনাগুলির কোনও প্যারামিটার নেই, তাদের পরিসংখ্যান রয়েছে ; যেমন, নমুনার অর্থ, , একটি নমুনা পরিসংখ্যান, তবে জনসংখ্যার অর্থ, , একটি জনসংখ্যার পরামিতি)) আমরা কীভাবে এটি জানি, বাস্তবে আমরা না। আপনি সঠিক যে আমরা কিছু অনুমানের উপর নির্ভর করি - আমরা সর্বদা থাকি। যদি এই অনুমানগুলি সঠিক হয়, তবে এটি প্রমাণিত হতে পারে যে বৈশিষ্ট্যগুলি হোল্ড করে। এটি 1970 এর দশকের শেষের দিকে এবং 1980 এর দশকের প্রথম দিকে ইফ্রনের কাজকর্মের মূল বিষয় ছিল, তবে বেশিরভাগ লোকের পক্ষে এই গণিতটি অনুসরণ করা কঠিন। বুটস্ট্র্যাপের কিছুটা গাণিতিক ব্যাখ্যার জন্য, এখানে @ স্টাসকের জবাবটি দেখুন: বুটস্ট্র্যাপিং কেন কাজ করে তা লাইপের লোকদের কাছে ব্যাখ্যা μx¯μ। গণিতের একটি দ্রুত প্রদর্শনের জন্য, নিম্নলিখিত সিমুলেশন ব্যবহার করে বিবেচনা করুন R:

# a function to perform bootstrapping
boot.mean.sampling.distribution = function(raw.data, B=1000){
  # this function will take 1,000 (by default) bootsamples calculate the mean of 
  # each one, store it, & return the bootstrapped sampling distribution of the mean

  boot.dist = vector(length=B)     # this will store the means
  N         = length(raw.data)     # this is the N from your data
  for(i in 1:B){
    boot.sample  = sample(x=raw.data, size=N, replace=TRUE)
    boot.dist[i] = mean(boot.sample)
  }
  boot.dist = sort(boot.dist)
  return(boot.dist)
}

# simulate bootstrapped CI from a population w/ true mean = 0 on each pass through
# the loop, we will get a sample of data from the population, get the bootstrapped 
# sampling distribution of the mean, & see if the population mean is included in the
# 95% confidence interval implied by that sampling distribution

set.seed(00)                       # this makes the simulation reproducible
includes = vector(length=1000)     # this will store our results
for(i in 1:1000){
  sim.data    = rnorm(100, mean=0, sd=1)
  boot.dist   = boot.mean.sampling.distribution(raw.data=sim.data)
  includes[i] = boot.dist[25]<0 & 0<boot.dist[976]
}
mean(includes)     # this tells us the % of CIs that included the true mean
[1] 0.952

আমরা কোন বিশেষ অনুমানের উপর নির্ভর করছি?
ইয়ারওয়াইন

2
ধন্যবাদ। আমি মনে করি যে আমি সেই থ্রেডের দ্বিতীয় উত্তরে যা খুঁজছিলাম তা খুঁজে পেয়েছি: "মনে রাখবেন যে আমরা জনসংখ্যার অর্থ অনুমান করতে বুটস্ট্র্যাপ নমুনাগুলি ব্যবহার করছি না, আমরা সেটির জন্য নমুনাটির অর্থটি ব্যবহার করি (বা আগ্রহের পরিসংখ্যান যাই হোক না কেন) হয়) তবে আমরা নমুনা সংগ্রহের বৈশিষ্ট্যগুলি (স্প্রেড, পক্ষপাত) অনুমান করতে বুটস্ট্র্যাপ নমুনাগুলি ব্যবহার করছি। এবং স্যাম্পলিংয়ের প্রভাবগুলি শিখতে একটি জনসংখ্যার (আমরা আশা করি আগ্রহের জনসংখ্যার প্রতিনিধি) থেকে নমুনা ব্যবহার করে এবং এটি অনেক কম বিজ্ঞপ্তি। ...
ইয়ারওয়াইন

1
... অন্য কথায়, সমস্ত সিআই আমাদের বলে দিচ্ছে যে আমাদের মতো প্রায় একই জনসংখ্যায় আমরা সেই জনসংখ্যা থেকে নেওয়া 95% নমুনাগুলি সত্যের মান +/- ত্রুটির প্রান্তিকে প্রতিফলিত করার প্রত্যাশা করব। সুতরাং আমরা যা করছি তা হ'ল একটি মোটামুটি ক্লু দিচ্ছে - যদিও আমাদের কাছে সবচেয়ে সেরা ক্লু - আমাদের নমুনা পরিসংখ্যান সত্যিকারের জনসংখ্যার প্যারামিটারের কতটা কাছাকাছি হতে পারে তার আশপাশে। যদি তা হয়, তবে এটির মতো শোনা যাচ্ছে যে আমাদের সিআই-তে সঠিক সংখ্যাগুলি খুব বেশি গুরুত্ব সহকারে নেওয়া উচিত নয় - এগুলি কেবল কিছু অর্থ বোঝায়, "নমুনা পরিসংখ্যান সম্ভবত প্রায় এই ডিগ্রি থেকে প্রায় সঠিক to" আমি কি অধিকার পেয়েছি?
ইয়ারওয়াইন

1
এটি মূলত সঠিক। একটি সিআই আমাদের আমাদের অনুমানের নির্ভুলতার ধারণা দেয় তবে আমরা কখনই জানতে পারি না যে আমাদের আসল (উপলব্ধি) সিআইয়ের সত্যিকারের মান রয়েছে কিনা। প্রাথমিক ধারণাটি হ'ল আমাদের ডেটা আগ্রহের জনসংখ্যার প্রতিনিধি। মনে রাখবেন যে এগুলির কোনওটিই বুটস্ট্র্যাপড সিআই-র ক্ষেত্রে বিশেষ নয়, অ্যাসিপটোটিক তত্ত্বের মাধ্যমে গণনা করা কোনও সিআইতে আপনার একই ব্যাখ্যা এবং অনুমান রয়েছে।
গুং - মনিকা পুনরায়

1
এটি একটি দুর্দান্ত ব্যাখ্যা। আমি কেবল এটিই যুক্ত করব যে "সত্যিকারের মান" মাঝে মাঝে অধ্যয়ন নকশার একটি নিদর্শন। রাজনৈতিক প্রার্থীদের ভোট দেওয়ার ক্ষেত্রে, স্তরযুক্ত নমুনাগুলি এলোমেলো নমুনার চেয়ে অনেক বেশি নির্ভুল এবং নির্ভরযোগ্য অনুমান দেয় estima ব্যয়টি ডিজাইনের মাধ্যমে ভুল গ্রুপকে ওভার স্যাম্পল করার ঝুঁকি। সেক্ষেত্রে 95% সিআই সঠিক মানকে কেন্দ্র করে হয়, যা অধ্যয়নের বিজ্ঞাপন ইনফিনিটামের প্রতিরূপ দ্বারা অর্জিত হয় , তবে সেই মানটি সত্যিকারের পরামিতিটির অন্য ধারণা নয়: আমরা যে প্যারামিটারটি অনুমান করতে চেয়েছিলাম । এই কারণেই অধ্যয়নের নকশা এবং অনুমানের অন্তর্ভুক্ত।
অ্যাডামো

0

আপনি যা বলছেন তা হ'ল বুটস্ট্র্যাপযুক্ত রেসপন্সগুলি থেকে আত্মবিশ্বাসের বিরতি খুঁজে পাওয়ার দরকার নেই। আপনি যদি বুটস্ট্র্যাপযুক্ত রেসপন্স থেকে প্রাপ্ত পরিসংখ্যানের (নমুনা গড় বা নমুনা অনুপাত) নিয়ে সন্তুষ্ট হন তবে কোনও আত্মবিশ্বাসের বিরতি খুঁজে পাবেন না এবং তাই, ব্যাখ্যাটির কোনও প্রশ্ন নেই। তবে আপনি যদি বুটস্ট্র্যাপযুক্ত রেসালাম থেকে প্রাপ্ত পরিসংখ্যান থেকে সন্তুষ্ট না হন বা সন্তুষ্ট হন তবে তবুও আত্মবিশ্বাসের অন্তর সন্ধান করতে চান, তবে এই ধরনের আত্মবিশ্বাসের ব্যবধানের জন্য ব্যাখ্যাটি অন্য কোনও আত্মবিশ্বাসের ব্যবধানের মতোই। এটি কারণ যখন আপনার বুটস্ট্র্যাপযুক্ত রেসপ্যামগুলি হুবহু জনসংখ্যার উপস্থাপন করে (বা এমনটি ধরে নেওয়া হয়), তাহলে আত্মবিশ্বাসের ব্যবধানের প্রয়োজন কোথায়? বুটস্ট্র্যাপযুক্ত রেসপ্যাম থেকে প্রাপ্ত পরিসংখ্যানগুলি নিজেই মূল জনসংখ্যার প্যারামিটার তবে আপনি যখন পরিসংখ্যানটিকে মূল জনসংখ্যার প্যারামিটার হিসাবে বিবেচনা করবেন না, তখন আত্মবিশ্বাসের ব্যবধানটি খুঁজে বের করার প্রয়োজন রয়েছে। সুতরাং, আপনি কীভাবে বিবেচনা করবেন সে সম্পর্কে এটি সমস্ত। ধরা যাক আপনি বুটস্ট্র্যাপযুক্ত রেসপন্স থেকে 95% আত্মবিশ্বাসের ব্যবধান গণনা করেছেন। এখন ব্যাখ্যাটি হ'ল: "95% বার, এই বুটস্ট্র্যাপ পদ্ধতিটি নির্ভুলভাবে সত্য জনসংখ্যার প্যারামিটার সহ একটি আস্থার ব্যবধানে ফলাফল করে"।

(এটি আমার মনে হয় any কোনও ভুল হলে আমাকে সংশোধন করুন)।


-1

আমরা আসল জনসংখ্যার আসল পরামিতি উল্লেখ করছি। এটি অনুমান করে এটি করা সম্ভব যে মূল জনসংখ্যার থেকে এলোমেলোভাবে ডেটা অঙ্কিত হয়েছিল - সেই ক্ষেত্রে, গাণিতিক যুক্তিগুলি দেখায় যে বুটস্ট্র্যাপ পদ্ধতিগুলি একটি বৈধ আত্মবিশ্বাসের ব্যবধান দেবে, কমপক্ষে ডেটাসেটের আকারটি যথেষ্ট পরিমাণে বড় হয়ে যাওয়ার কারণে ।


সুতরাং এটি কেন কাজ করে তা বোঝার জন্য মনে হচ্ছে গাণিতিক প্রমাণগুলি অনুসরণ করার জন্য আমার যথেষ্ট পরিমাণে গণিত জানতে হবে। এটা কি ঠিক?
ইয়ারওয়াইন

আমিও তাই মনে করি (আমি প্রমাণগুলির সাথে পরিচিত নই)
গ্যারেথ

স্বজ্ঞাতভাবে যদিও, আপনি দেখতে পাচ্ছেন যে নমুনার আকারটি বড় হওয়ার সাথে সাথে, নমুনাটি অনেকটা জনসংখ্যার মতো দেখতে শুরু করে। উদাহরণস্বরূপ, বলুন যে আমি প্রদত্ত গড় এবং বৈকল্পিকতা সহ একটি সাধারণ বিতরণ থেকে 1 মিলিয়ন নমুনা নিই। এই নমুনাটিকে এক্স বলুন X আমি মনে করি এটি কেন কাজ করে তার মূল ধারণা এটি।
গ্যারেথ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.