বায়াসড বুটস্ট্র্যাপ: পর্যবেক্ষণকৃত পরিসংখ্যানের চারদিকে সিআইকে কেন্দ্র করে রাখা কি ঠিক আছে?


13

এটি বুটস্ট্র্যাপের মতো: অনুমানটি আত্মবিশ্বাসের ব্যবধানের বাইরে

আমার কাছে কিছু তথ্য রয়েছে যা একটি জনসংখ্যার জিনোটাইপের সংখ্যার প্রতিনিধিত্ব করে। আমি শ্যাননের সূচক ব্যবহার করে জিনগত বৈচিত্র্য অনুমান করতে এবং বুটস্ট্র্যাপিং ব্যবহার করে একটি আত্মবিশ্বাসের ব্যবধানও তৈরি করতে চাই। তবে আমি লক্ষ করেছি যে বুটস্ট্র্যাপিংয়ের মাধ্যমে অনুমানটি চূড়ান্ত পক্ষপাতদুষ্ট হয়ে থাকে এবং এটি আমার পর্যবেক্ষণের পরিসংখ্যানের বাইরে থাকা একটি আত্মবিশ্বাসের ব্যবধানে ফলাফল দেয়।

নীচে একটি উদাহরণ দেওয়া আছে।

# Shannon's index
H <- function(x){
  x <- x/sum(x)
  x <- -x * log(x, exp(1))
  return(sum(x, na.rm = TRUE))
}
# The version for bootstrapping
H.boot <- function(x, i){
  H(tabulate(x[i]))
}

ডেটা জেনারেশন

set.seed(5000)
X <- rmultinom(1, 100, prob = rep(1, 50))[, 1]

হিসাব

H(X)

## [1] 3.67948

xi <- rep(1:length(X), X)
H.boot(xi)

## [1] 3.67948

library("boot")
types <- c("norm", "perc", "basic")
(boot.out <- boot::boot(xi, statistic = H.boot, R = 1000L))

## 
## CASE RESAMPLING BOOTSTRAP FOR CENSORED DATA
## 
## 
## Call:
## boot::boot(data = xi, statistic = H.boot, R = 1000)
## 
## 
## Bootstrap Statistics :
##     original     bias    std. error
## t1*  3.67948 -0.2456241  0.06363903

পক্ষপাত সংশোধন করে সিআই তৈরি করা

boot.ci(boot.out, type = types)

## BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
## Based on 1000 bootstrap replicates
## 
## CALL : 
## boot.ci(boot.out = boot.out, type = types)
## 
## Intervals : 
## Level      Normal              Basic              Percentile     
## 95%   ( 3.800,  4.050 )   ( 3.810,  4.051 )   ( 3.308,  3.549 )  
## Calculations and Intervals on Original Scale

ধরে নিই যে টি এর প্রকরণটি টি- এর বিভিন্নতার জন্য ব্যবহার করা যেতে পারে ।

norm.ci(t0 = boot.out$t0, var.t0 = var(boot.out$t[, 1]))[-1]

## [1] 3.55475 3.80421

এটা সি আই চারপাশে কেন্দ্রীভূত প্রতিবেদন করতে সঠিক হবে t0 ? বুটস্ট্র্যাপ উত্পন্ন করার জন্য আরও ভাল উপায় আছে কি?

উত্তর:


12

ওপি দ্বারা প্রদত্ত সেটআপে আগ্রহের প্যারামিটারটি হ'ল শ্যানন এনট্রপি যা সম্ভাব্যতা ভেক্টরের একটি কাজ । নমুনাগুলির উপর ভিত্তি করে অনুমানকারী ( সিমুলেশনে ) হ'ল প্লাগ-ইন অনুমানকারী নমুনাগুলি অভিন্ন বিতরণ ব্যবহার করে তৈরি করা হয়েছিল যার জন্য শ্যানন এন্ট্রপিটিযেহেতু শ্যানন এন্ট্রপিটি ইউনিফর্ম বিতরণে সর্বাধিক করা হয়েছে, তাই প্লাগ-ইন অনুমানকারীকে অবশ্যই নিম্নমুখী হতে হবে । একটি অনুকরণ যে দেখায়

θ(p)=i=150pilogpi,
pR50nn=100
θ^n=θ(p^n)=i=150p^n,ilogp^n,i.
log(50)=3.912.bias(θ^100)0.28 যেখানে । প্লাগ-ইন অনুমানকারীটি সামঞ্জস্যপূর্ণ, তবে ম্যাথবিএফ for জন্য অর্থসূচক প্রযোজ্য নয় কারণ শ্যানন এনট্রপির ডেরিভেটিভ 0, সুতরাং particular of এর এই বিশেষ , অ্যাসিপটোটিক যুক্তিগুলির ভিত্তিতে আত্মবিশ্বাসের ব্যবধানগুলি সুস্পষ্ট নয়। bias(θ^500)0.05Δpp

পারসেন্টাইল ব্যবধানটি বিতরণের উপর ভিত্তি করে যেখানে নমুনা পর্যবেক্ষণ থেকে প্রাপ্ত । বিশেষত, এটি বিতরণের জন্য 2.5% কোয়ান্টাইল থেকে 97.5% কোয়ান্টাইলের । বুটস্ট্র্যাপ সিমুলেশনটি যেমন দেখায়, স্পষ্টভাবে নীচের পক্ষপাতদুষ্ট হিসাবে , যার ফলে শতকরা বিরতি ঘটে সম্পূর্ণ ভুল.θ(pn)pnnp^nθ(pn)θ(pn)θ(p^n)

মৌলিক (এবং স্বাভাবিক) ব্যবধানের জন্য, কোয়ান্টাইলগুলির ভূমিকাগুলি আন্তঃজাত হয়। এটি সূচিত করে যে অন্তরটি যুক্তিসঙ্গত বলে মনে হয় (এটি 3.912 এর অন্তর্ভুক্ত) যদিও 3.912 এর বাইরে প্রসারিত সময়গুলি যৌক্তিকভাবে অর্থবোধক নয়। তদুপরি, আমি জানি না যে প্রাথমিক বিরতিতে সঠিক কভারেজ থাকবে কিনা। এর ন্যায্যতা নিম্নলিখিত আনুমানিক বিতরণীয় পরিচয়ের উপর ভিত্তি করে:

θ(pn)θ(p^n)Dθ(p^n)θ(p),
যা মতো (অপেক্ষাকৃত) ছোট জন্য সন্দেহজনক হতে পারে ।nn=100

ওপি-র শেষ ত্রুটি ভিত্তিক ব্যবধান বড় পক্ষপাতের কারণে কোনওভাবেই কাজ করবে না of এটি পক্ষপাত সংশোধনকারী অনুমানকারীর পক্ষে কাজ করতে পারে তবে তারপরে আপনাকে প্রথমে পক্ষপাত সংশোধনকারী অনুমানকারকের জন্য সঠিক মানের ত্রুটিগুলি দরকার।θ(p^n)±1.96se^n

আমি এর প্রোফাইল লগ-সম্ভাবনার ভিত্তিতে একটি সম্ভাবনা ব্যবধান বিবেচনা করব । আমি ভীত যে আমি ছাড়া তোমাদের উপর লগ-সম্ভাবনা পূর্ণবিস্তার প্রয়োজন এই উদাহরণে জন্য প্রোফাইল লগ-সম্ভাবনা গনা কোনো সহজ উপায় জানি না আছি বিভিন্ন সংশোধন করা হয়েছে মানের জন্য ।θ(p)pθ(p)


5
এনট্রপির জন্য "প্লাগ-ইন" ​​অনুমানকারী ব্যবহারের পক্ষপাত সমস্যা কয়েক দশক ধরে প্রশংসিত হয়েছে। এই কাগজটি কম পক্ষপাতমূলক অনুমান বিশ্লেষণ করে। অর্ডার করার জন্য একটি পক্ষপাত সংশোধন , যা 1955 তারিখের (লিঙ্কযুক্ত পেপারের 4 ম। দেখুন) ওপি কর্তৃক উপস্থাপিত মামলায় আবেদন করা যেতে পারে। সংশোধনটি 0.245, বুটস্ট্র্যাপ দ্বারা চিহ্নিত পক্ষপাতের সাথে প্রায় একই। এন্ট্রপি নিজেই অনুমান করার জন্য বুটস্ট্র্যাপটি এখানে ব্যবহার করা উচিত, কেবল তার আত্মবিশ্বাসের সীমা নয়। 1/n
এডিএম

@ এডিএম এটি খুব দরকারী তথ্য। আমি এই বিশেষ পক্ষপাতিত্ব সমস্যা সাহিত্য জানি না। এটি সত্যই কার্যকর হতে পারে যদি আপনি মন্তব্যটিকে এমন কোনও উত্তরে পরিণত করতে পারেন যা পক্ষপাত সংশোধন ব্যাখ্যা করে এবং কীভাবে এটি বুটস্ট্র্যাপিংয়ের সাথে ব্যবহার করা যায়, বলুন, আত্মবিশ্বাসের ব্যবধানগুলি পেতে।
এনআরএইচ

এই প্রশ্নটি এবং আপনার উত্তর না আসা পর্যন্ত আমি এই সাহিত্যকে জানতাম না। যা কিছুটা বিব্রতকর, যেহেতু শ্যানন এনট্রপি প্রায়শই আমার বায়োমেডিকাল বিজ্ঞানের ক্ষেত্রে একটি পরিমাপ হিসাবে ব্যবহৃত হয়। অতিরিক্ত উত্তর হিসাবে আমি কী একসাথে রাখতে পারি তা দেখতে পাচ্ছি।
এডিএম

1
বুটস্ট্র্যাপের নমুনাগুলির সংখ্যা বৃদ্ধি করা সত্যিই সহায়তা করবে না। এটি যথেষ্ট পরিমাণে বড় হতে হবে যাতে আপনি বিতরণের আগ্রহের পরিমাণটি নির্ভরযোগ্যভাবে অনুমান করতে পারেন , তবে অন্যথায় বুটস্ট্র্যাপের নমুনার সংখ্যা বাড়ানো পক্ষপাতটিকে সরাবে না বা তৈরি করবে না আত্মবিশ্বাস আরও উপযুক্ত। θ(pn)
এনআরএইচ

1
দুঃখিত জেডএনকে, আমি আপনার প্রশ্নটি ভুল বুঝেছি। আপনি যদি নমুনার আকার বাড়িয়ে দেন তবে পক্ষপাতটি আরও ছোট হবে, হ্যাঁ! অনুমানকারী সামঞ্জস্যপূর্ণ। অবিকল অভিন্ন বিতরণের জন্য আমি এমনকি বৃহৎ জন্য আস্থা অন্তর প্রকৃত কভারেজ সম্পর্কে কিছুটা সন্দিহান হবে কারণে আমি উত্তর বর্ণিত জন্য। অন্যান্য সমস্ত বিতরণের জন্য সিএলটি প্রযোজ্য, এবং বিভিন্ন পদ্ধতি জন্য অসম্পূর্ণভাবে সঠিক কভারেজ তৈরি করবে । nnn
এনআরএইচ

7

@ এনআরএইচ-র উত্তর যেমন উল্লেখ করেছে, সমস্যাটি এমন নয় যে বুটস্ট্র্যাপিং পক্ষপাতদুষ্ট ফলাফল দিয়েছে। নমুনা থেকে প্রাপ্ত তথ্যের উপর ভিত্তি করে শ্যানন এনট্রপির সহজ "প্লাগ ইন" অনুমানটি সত্য জনসংখ্যার মান থেকে নিম্নমুখী হয়।

এই সূচকটির সংজ্ঞাটি কয়েক বছরের মধ্যে এই সমস্যাটি 1950 এর দশকে স্বীকৃতি পেয়েছিল। এই নিবন্ধটি সম্পর্কিত সাহিত্যের উল্লেখ সহ অন্তর্নিহিত বিষয়গুলি নিয়ে আলোচনা করে।

সমস্যাটি এই এনট্রপি পরিমাপের জন্য পৃথক সম্ভাবনার অলক্ষনিক সম্পর্ক থেকে উদ্ভূত হয়। এই ক্ষেত্রে, জিন জন্য পর্যবেক্ষিত জেনোটাইপ ভগ্নাংশ আমি নমুনা এন , , সত্য সম্ভাব্যতা একজন নিরপেক্ষ মূল্নির্ধারক হয়, । কিন্তু যখন এই পর্যবেক্ষণকৃত মানটি এম জিনগুলির উপরে এনট্রপির জন্য "প্লাগ ইন" সূত্রে প্রয়োগ করা হয়:p^n,ipn,i

θ^n=θ(p^n)=i=1Mp^n,ilogp^n,i.

অ-লিনিয়ার সম্পর্কের অর্থ হ'ল ফলস্বরূপ মানটি সত্য জিনগত বৈচিত্র্যের পক্ষপাতদুষ্ট নিম্ন-অনুমান।

পক্ষপাতটি জিনের সংখ্যা, এবং পর্যবেক্ষণের সংখ্যার উপর নির্ভর করে , । প্রথম অর্ডার করতে, প্লাগ-ইন অনুমানটি কোনও পরিমাণ দ্বারা সত্য এনট্রপির চেয়ে কম হবে । উপরের লিঙ্কযুক্ত কাগজে উচ্চতর ক্রম সংশোধন মূল্যায়ন করা হয়।MN(M1)/2N

আর-তে প্যাকেজ রয়েছে যা এই সমস্যাটি নিয়ে কাজ করে। simbootবিশেষ করে প্যাকেজ একটি ফাংশন আছে estShannonfযে এইসব পক্ষপাত সংশোধন করে তোলে, এবং একটি ফাংশন sbdivআস্থা অন্তর গণক জন্য। আপনার বিশ্লেষণের জন্য স্ক্র্যাচ থেকে শুরু করার চেষ্টা করার পরিবর্তে এ জাতীয় প্রতিষ্ঠিত ওপেন সোর্স সরঞ্জামগুলি ব্যবহার করা ভাল।


সুতরাং এবং নিজেকে নির্ধারণকারী নমুনা আকারের কারণে ভুল? simbootপ্যাকেজ সৌন্দর্য প্রতিশ্রুতি, কিন্তু আমার উদ্দেশ্য জন্য উপযুক্ত যেমন একটি নিয়ন্ত্রণ নমুনা প্রয়োজন আস্থা অন্তর অনুমান করার জন্য মনে হয় না।
জেডএনকে

1
"ভ্রান্ত" বেশ ঠিক নয়; অনুমানকটি "পক্ষপাতদুষ্ট" যেহেতু এর প্রত্যাশিত মানটি প্রকৃত জনসংখ্যার মানের মতো নয়। এর অর্থ এই নয় যে এটি "ভুল"; পক্ষপাতদুষ্ট অনুমানকারী কার্যকর হতে পারে, যেমন অনুমানকারী বাছাইয়ের ক্ষেত্রে পক্ষপাত-বৈকল্পিক ট্রেড অফ দ্বারা চিত্রিত । যদি simbootআপনার চাহিদা পূরণ নয়, মত অন্যান্য আর প্যাকেজে লিঙ্কের জন্য গুগল "শ্যানন এনট্রপি পক্ষপাত r" বা entropy, entropartএবং EntropyEstimation
এডিএম

1
জনসংখ্যায় উপস্থিত কিছু জিনোটাইপগুলি কোনও নির্দিষ্ট নমুনায় মিস হওয়ার সম্ভাবনা রয়েছে বলে এ থেকে উত্থাপিত অতিরিক্ত সমস্যা রয়েছে। কিছু জনসংখ্যা- এবং বাস্তু-ভিত্তিক আর প্যাকেজগুলির কাছে এই সমস্যাটি মোকাবেলার উপায় রয়েছে বলে মনে হয়।
এডিএম
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.