বুটস্ট্র্যাপিংয়ে .632+ নিয়মটি কী?

107

এখানে @ গুং .632+ রুলের উল্লেখ করে। একটি দ্রুত গুগল অনুসন্ধান এই নিয়মের অর্থ কী এবং কী উদ্দেশ্যে এটি ব্যবহার করা হয় তা সহজেই বুঝতে সহজ উত্তর পাওয়া যায় না। কেউ কি .632+ বিধিটি ব্যাখ্যা করতে পারেন?

bootstrap

— russellpierce
সূত্র

115

আমি 0.632 এর অনুমানকারীকে পেয়ে যাব, তবে এটি কিছুটা দীর্ঘ উন্নয়ন হবে:

ধরুন আমরা ভবিষ্যদ্বাণী করা করতে চান সঙ্গে ফাংশন ব্যবহার করে , যেখানে কিছু প্যারামিটার যে ডেটা ব্যবহার অনুমান করা হয় উপর নির্ভর করে হতে পারে , যেমন $Y$ $X$ $f$ $f$ $(\mathbf{Y}, \mathbf{X})$ $f(\mathbf{X}) = \mathbf{X}\mathbf{\beta}$

পূর্বাভাস ত্রুটির একটি নির্দোষ অনুমান এরর যেখানে কিছু ক্ষতির কাজ, যেমন স্কোয়ার ত্রুটি ক্ষতি। একে প্রায়শই প্রশিক্ষণের ত্রুটি বলা হয়। ইফ্রন এট আল। এটিকে আপাত ত্রুটি হার বা পুনরায় প্রতিষ্ঠানের হার বলে। এটা খুব ভালো যেহেতু আমরা আমাদের ডেটা ব্যবহার না মাপসই । এর ফলস্বরূপ নিম্নমুখী পক্ষপাতী। আপনি জানতে চান যে আপনার মডেল নতুন মানগুলি পূর্বাভাস দেওয়ার ক্ষেত্রে কতটা ভাল করে।

\bar{e r r} = \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f (x_{i}))

$\overline{err} = \dfrac{1}{N}\sum_{i=1}^N L(y_i,f(x_i))$

L

$L$

(x_{i}, y_{i})

$(x_i,y_i)$

f

$f$

\bar{e r r}

$\overline{err}$

f

$f$

প্রত্যাশিত অতিরিক্ত-নমুনা পূর্বাভাস ত্রুটিটি অনুমান করার জন্য প্রায়শই আমরা ক্রস-বৈধকরণ ব্যবহার করি (আমাদের প্রশিক্ষণ সংস্থায় আমাদের মডেল ডেটাতে কতটা ভাল করে?)

E r r = E [L (Y, f (X))]

$Err = \text{E}\left[ L(Y, f(X))\right]$

এটি করার একটি জনপ্রিয় উপায় হ'ল ফোল্ড ক্রস-বৈধকরণ। আপনার ডেটা গ্রুপে বিভক্ত করুন (উদাঃ 10)। প্রতি দলের জন্য , অবশিষ্ট আপনার মডেল মাপসই গ্রুপ এবং এর এটি পরীক্ষা ম গ্রুপ। আমাদের ক্রস- অতিরিক্ত-নমুনা পূর্বাভাস ত্রুটিটি কেবলমাত্র গড় যেখানে কিছু সূচক ফাংশন যা পার্টিশন যা পর্যবেক্ষণ ইঙ্গিত হয় বরাদ্দ করা হয় এবং এর পূর্বাভাস মান নেই ডেটা ব্যবহার তম সেট। $K$ $K$ $k$ $K-1$ $k$

E r r_{C V} = \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f_{- κ (i)} (x_{i}))

$Err_{CV} = \dfrac{1}{N}\sum_{i=1}^N L(y_i, f_{-\kappa(i)}(x_i))$

κ

$\kappa$

i

$i$

f_{- κ (i)} (x_{i})

$f_{-\kappa(i)}(x_i)$

x_{i}

$x_i$

κ (i)

$\kappa(i)$

এই অনুমানকটি সত্যিকারের পূর্বাভাস ত্রুটির জন্য আনুমানিক পক্ষপাতহীন এবং যখন এবং এর বৃহত্তর বৈচিত্র রয়েছে এবং বৃহত্তর জন্য আরও গণনামূলকভাবে ব্যয়বহুল । সুতরাং আবার আমরা খেলতে পক্ষপাত – বৈকল্পিক বাণিজ্য বন্ধ দেখতে পাই। $K=N$ $K$

ক্রস-বৈধকরণের পরিবর্তে আমরা অতিরিক্ত নমুনা পূর্বাভাস ত্রুটির অনুমান করতে বুটস্ট্র্যাপ ব্যবহার করতে পারি। বুটস্ট্র্যাপ পুনরায় মডেলিং কোনও পরিসংখ্যানের নমুনা বিতরণ অনুমান করতে ব্যবহার করা যেতে পারে। আমাদের প্রশিক্ষণ ডেটা থেকে থাকে তবে , তাহলে আমরা গ্রহণ মনে করতে পারেন বুটস্ট্র্যাপ নমুনা এই সেট থেকে (প্রতিস্থাপন সঙ্গে) যেখানে প্রতিটি হ'ল নমুনার একটি সেট । অতিরিক্ত নমুনা পূর্বাভাস ত্রুটির অনুমান করতে এখন আমরা আমাদের বুটস্ট্র্যাপ নমুনাগুলি ব্যবহার করতে পারি: যেখানে এ পূর্বাভাস মান করার মডেল ফিট থেকে $\mathbf{X} = (x_1,\ldots,x_N)$ $B$ $\mathbf{Z}_1,\ldots,\mathbf{Z}_B$ $\mathbf{Z}_i$ $N$

E r r_{b o o t} = \frac{1}{B} \sum_{b = 1}^{B} \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f_{b} (x_{i}))

$Err_{boot} = \dfrac{1}{B}\sum_{b=1}^B\dfrac{1}{N}\sum_{i=1}^N L(y_i, f_b(x_i))$

f_{b} (x_{i})

$f_b(x_i)$

x_{i}

$x_i$

b

$b$ ম বুটস্ট্র্যাপ ডেটাসেট। দুর্ভাগ্যবশত, এই একটি বিশেষ ভাল মূল্নির্ধারক কারণ বুটস্ট্র্যাপ নমুনা উত্পাদন ব্যবহৃত নয় অন্তর্ভুক্ত থাকতে পারে । লিভ-ওয়ান-আউট বুটস্ট্র্যাপ অনুমানকারী ক্রস-বৈধকরণের অনুকরণ করে একটি উন্নতি প্রস্তাব করে এবং এরূপ সংজ্ঞা দেওয়া হয়: যেখানে the বুটস্ট্র্যাপ নমুনাগুলির সূচকের সেট , এবং পর্যবেক্ষণ ধারণ করবেন না যেমন নমুনার সংখ্যা।

f_{b} (x_{i})

$f_b(x_i)$

x_{i}

$x_i$

E r r_{b o o t (1)} = \frac{1}{N} \sum_{i = 1}^{N} \frac{1}{| C^{- i} |} \sum_{b \in C^{- i}} L (y_{i}, f_{b} (x_{i}))

$Err_{boot(1)} = \dfrac{1}{N}\sum_{i=1}^N\dfrac{1}{|C^{-i}|}\sum_{b\in C^{-i}}L(y_i,f_b(x_i))$

C^{- i}

$C^{-i}$

i

$i$

| C^{- i} |

$|C^{-i}|$

E r r_{b o o t (1)}

$Err_{boot(1)}$ অত্যধিক মানসিক সমস্যা সমাধান করে তবে তবুও পক্ষপাতদুষ্ট (এইটি upর্ধ্বমুখী পক্ষপাতদুষ্ট)। প্রতিস্থাপনের সাথে নমুনা দেওয়ার ফলে বুটস্ট্র্যাপের নমুনাগুলিতে স্বতন্ত্র পর্যবেক্ষণের কারণে পক্ষপাত হয়। প্রতিটি নমুনায় স্বতন্ত্র পর্যবেক্ষণের গড় সংখ্যা প্রায় ( কেন প্রতিটি বুটস্ট্র্যাপ নমুনায় প্রায় দুই তৃতীয়াংশ পর্যবেক্ষণ থাকে কেন তার ব্যাখ্যাটির জন্য এই উত্তরটি দেখুন )। পক্ষপাতদুষ্ট সমস্যা সমাধানের জন্য, ইফ্রন এবং তিবশিরানী 0.632 এর প্রাক্কলনকর্তার প্রস্তাব করেছেন: এর যেখানে

0.632 N

$0.632N$

E r r_{.632} = 0.368 \bar{e r r} + 0.632 E r r_{b o o t (1)}

$Err_{.632} = 0.368\overline{err} + 0.632Err_{boot(1)}$

\bar{e r r} = \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f (x_{i}))

$\overline{err} = \dfrac{1}{N}\sum_{i=1}^N L(y_i,f(x_i))$ ভবিষ্যদ্বাণী ত্রুটির নির্দোষ অনুমান যা প্রায়শই প্রশিক্ষণের ত্রুটি বলে। ধারণাটি নিম্নতর পক্ষপাতদুষ্ট অনুমান এবং একটি upর্ধ্বমুখী পক্ষপাতমূলক অনুমান গড়ে গড়ে।

তবে, যদি আমাদের একটি অতিমাত্রার তুলনায় পূর্বাভাস ফাংশন থাকে (যেমন এরর ) তবে এমনকি .63৩২ এর অনুমানক নিম্নমুখী হবে। .632+ মূল্নির্ধারক মধ্যে একটি কম পক্ষপাতমূলক আপস ডিজাইন করা হয়েছে এবং । সাথে এরর যেখানে হ'ল নো-ইনফরমেশন ত্রুটি হার, এর সমস্ত সম্ভাব্য সংমিশ্রণের উপর পূর্বাভাস মডেলটি মূল্যায়ন করে অনুমান করা হয় এবং ভবিষ্যদ্বাণীকারীদের লক্ষ্য করে । $\overline{err}=0$ $\overline{err}$ $Err_{boot(1)}$

E r r_{.632 +} = (1 - w) \bar{e r r} + w E r r_{b o o t (1)}

$Err_{.632+} = (1 - w) \overline{err} + w Err_{boot(1)}$

w = \frac{0.632}{1 - 0.368 R} and R = \frac{E r r_{b o o t (1)} - \bar{e r r}}{γ - \bar{e r r}}

$w = \dfrac{0.632}{1 - 0.368R} \quad\text{and}\quad R = \dfrac{Err_{boot(1)} - \overline{err}}{\gamma - \overline{err}}$

γ

$\gamma$

y_{i}

$y_i$

x_{i}

$x_i$

γ = \frac{1}{N^{2}} \sum_{i = 1}^{N} \sum_{j = 1}^{N} L (y_{i}, f (x_{j}))

$\gamma = \dfrac{1}{N^2}\sum_{i=1}^N\sum_{j=1}^N L(y_i, f(x_j))$ ।

এখানে আপেক্ষিক ওভারফিটিং হারের পরিমাপ করে। যদি কোনও ওভারফিটিং না থাকে (আর = 0, যখন ) এটি .632 অনুমানের সমান। $R$ $Err_{boot(1)} = \overline{err}$

— bdeonovic
সূত্র

2

এগুলি হ'ল @ পিপিয়ারস ভাল প্রশ্ন, তবে তারা এই থ্রেডের কেন্দ্রীয় বিষয় থেকে কিছুটা দূরে সরে গেছে। সিভি সংগঠন অনুসারে এগুলি নতুন থ্রেডে রাখাই আরও ভাল হবে, যাতে পরবর্তীকালে সেই তথ্যগুলি খুঁজে পেতে এবং ব্যবহার করা মানুষের পক্ষে সহজতর হয়।

— গাং

1

প্রশ্ন 1: stats.stackexchange.com/questions/96764/…

— রাসেলপিয়ার্স

1

প্রশ্ন 2: en.wikipedia.org/wiki/Resampling_%28statistics%29#Jackknife মাধ্যমে stats.stackexchange.com/questions/21023/bootstrap-vs-jackknife

— russellpierce

1

@rpierce আমি দুঃখিত যদি আমি আমার প্রশ্নটি অনুসরণ করতে কিছুটা কঠিন করে তুলি। আপনার মডেলের এটি ফিট করতে ব্যবহৃত ডেটার সাথে তুলনা করছে। স্কোয়ার ত্রুটি ক্ষতির জন্য যা কেবলমাত্র

\bar{e r r} = \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f (x_{i}))

$\overline{err} = \dfrac{1}{N}\sum_{i=1}^N L(y_i,f(x_i))$

\frac{1}{n} \sum_{i = 1}^{n} (y_{i} - {\hat{y}}_{i})^{2}

$\dfrac{1}{n}\sum_{i=1}^n (y_i-\hat{y}_i)^2$

— বিডিয়নভিক

1

@ আরপিয়ার্স, হ্যাঁ! আমি কিছুটা সাধারণ ছিলাম কারণ কিছু শ্রেণির নোট থেকে আমি এই উপাদানটি প্রচুর পুনর্ব্যবহার করছি।

— বিডিওনোভিক

53

আপনি এই ^{1 টি} কাগজের 3 নং বিভাগে আরও তথ্য পাবেন । কিন্তু সংক্ষেপ, যদি আপনি কল একটি নমুনা থেকে নম্বর এলোমেলোভাবে এবং প্রতিস্থাপন সঙ্গে টানা, আনুমানিক গড়ে ধারণ অনন্য উপাদান। $S$ $n$ $\{1:n\}$ $S$ $(1-e^{-1})\,n \approx 0.63212056\, n$

যুক্তিটি নিম্নরূপ। আমরা পূরণ স্যাম্পলিং দ্বারা বার (এলোমেলোভাবে এবং প্রতিস্থাপন সঙ্গে) থেকে । একটি নির্দিষ্ট সূচক বিবেচনা করুন । $S=\{s_1,\ldots,s_n\}$ $i=1,\ldots,n$ $\{1:n\}$ $m\in\{1:n\}$

তারপর:

P (s_{i} = m) = 1 / n

$P(s_i=m)=1/n$

এবং

P (s_{i} \neq m) = 1 - 1 / n

$P(s_i\neq m)=1-1/n$

এবং এটি সত্য (স্বজ্ঞাতভাবে, যেহেতু আমরা প্রতিস্থাপনের সাথে নমুনা নিই, সম্ভাবনাগুলি উপর নির্ভর করে না ) $\forall 1\leq i \leq n$ $i$

এইভাবে

P (m \in S) = 1 - P (m \notin S) = 1 - P (\cap_{i = 1}^{n} s_{i} \neq m) = 1 - \prod_{i = 1}^{n} P (s_{i} \neq m) = 1 - (1 - 1 / n)^{n} \approx 1 - e^{- 1}

$P(m\in S)=1-P(m\notin S)=1-P(\cap_{i=1}^n s_i\neq m)\\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;=1-\prod_{i=1}^n P(s_i\neq m)=1-(1-1/n)^n\approx 1-e^{-1}$

অনুমানের গুণমান (যা উপর নির্ভর করে ) পরীক্ষামূলকভাবে পরীক্ষা করতে আপনি এই সামান্য সিমুলেশনটিও বহন করতে পারেন : $n$

n <- 100
fx01 <- function(ll,n){
    a1 <- sample(1:n, n, replace=TRUE)
    length(unique(a1))/n
}
b1 <- c(lapply(1:1000,fx01,n=100), recursive=TRUE)
mean(b1)

1. ব্র্যাডলি এফ্রন এবং রবার্ট তিবশিরানী (1997)। ক্রস-বৈধকরণের উন্নতি: .632+ বুটস্ট্র্যাপ পদ্ধতি । আমেরিকান স্ট্যাটিস্টিকাল অ্যাসোসিয়েশন জার্নাল , খণ্ড। 92, নং 438, পৃষ্ঠা 548--560।

— user603
সূত্র

3

রেফারেন্সে আপনার জন্য এখানে একটি দস্তাবেজ রয়েছে - stat.washington.edu/courses/stat527/s14/readings/…

1

(+1) খুব ভাল। আমি স্বরলিপিটি আরও কিছুটা স্ট্যান্ডার্ড করব। ডেটা: । আইআইডি র্যান্ডম ভেরিয়েবলগুলি উইথ । ফলাফল: ।

(x_{1}, \dots, x_{n})

$(x_1,\dots,x_n)$

S_{1}, \dots, S_{n}

$S_1,\dots,S_n$

P (S_{i} = k) = \frac{1}{n} I_{{1, \dots, n}} (k)

$P(S_i=k)=\frac{1}{n}\;I_{\{1,\dots,n\}}(k)$

P (\cup_{i = 1}^{n} {S_{i} = k}) = 1 - P (\cap_{i = 1}^{n} {S_{i} \neq k}) = 1 - \prod_{i = 1}^{n} P {S_{i} \neq k} = 1 - (1 - 1 / n)^{n} \to 1 - 1 / e \approx 63.21 %

$P(\cup_{i=1}^n\{S_i=k\})=1-P(\cap_{i=1}^n\{S_i\neq k\})=1-\prod_{i=1}^n P\{S_i\neq k\}=1-(1-1/n)^n\to1-1/e\approx 63.21\%$

— জেন

4

@ আরপিয়ার্স: ঠিক আছে। উত্তরটি বর্তমানে উল্লেখ করতে ব্যর্থ যে "স্পষ্ট" বিটটি হ'ল ।

1 - e^{- 1} \approx 0.63212056

$1-e^{-1}\approx0.63212056$

— ইলমারি করোনেন

1

এই উত্তরটিও দুর্দান্ত, বাস্তবে, স্বীকৃত উত্তরটি প্লাস এই উত্তরটি আমার প্রশ্নের সম্পূর্ণ উত্তর সরবরাহ করে - তবে দুজনের মধ্যে আমার মনে হয় বেনজামিন যে উত্তরটি আমি খুঁজছিলাম তার কাছাকাছি। যা বলা হচ্ছে - আমি সত্যিই উভয়কেই গ্রহণ করা সম্ভব বলে আশা করি।

— রাসেলপিয়ের্স

1

@ আরপিয়ার্স: ক্যালিন ডায়নের উদ্ধৃতি দিতে, " সময়ের চেয়ে পুরনো গল্প / ছড়া / বিউটি অ্যান্ড জানোয়ারের মতো পুরান Tale " : পি

— নিক স্টাওনার

8

আমার অভিজ্ঞতায়, প্রাথমিকভাবে সিমুলেশনগুলির উপর ভিত্তি করে, 0.632 এবং 0.632+ বুটস্ট্র্যাপ বৈকল্পিকগুলি কেবলমাত্র একটি অনুচিত যথাযথ স্কোরিং নিয়মের ব্যবহারের ফলে গুরুতর সমস্যার কারণে প্রয়োজন হয়েছিল, যথা অনুপাতটি সঠিকভাবে "শ্রেণিবদ্ধ" হয়। আপনি যখন যথাযথ (যেমন, ডিভিল্যান্স-ভিত্তিক বা ব্রিয়ার স্কোর) বা আধা-যথাযথ (যেমন, ইন্ডেক্স = অরোক) স্কোরিং নিয়ম ব্যবহার করেন, তখন স্ট্যান্ডার্ড ইফ্রন-গং আশাবাদ বুটস্ট্র্যাপ ঠিক ঠিক কাজ করে। $c$

— ফ্র্যাঙ্ক হ্যারেল
সূত্র

3

আপনি এখানে ফ্রাঙ্ক বলেছিলেন এমন বেশিরভাগ জিনিস আমি বুঝতে পারি বলে আমি মনে করি না। আপনি কি স্পষ্ট করতে ইচ্ছুক হবে? মনে হচ্ছে আপনার অবদানের জন্য কিছু অনন্য এবং গুরুত্বপূর্ণ আছে।

— রাসেলপিয়ার্স

আপনি যদি একটি নির্দিষ্ট প্রশ্ন করতে পারেন তবে প্রসারিত হয়ে খুশি lad

— ফ্র্যাঙ্ক হ্যারেল

1

এই স্কোরিং নিয়মগুলি ছিল ... বুটস্ট্র্যাপ ফলাফলের গুণমান বিচার করে? আপনি কী এমন কোনও লিঙ্ক সরবরাহ করতে পারেন যা অনুপাতের "শ্রেণিবদ্ধ" সঠিকভাবে স্কোরিং বিধি বর্ণনা করে, আমি কী ধরণের পশু হতে পারে তা ভাবতে সমস্যা হচ্ছে। গুগলে "এফ্রন-গং আশাবাদ" এর শীর্ষ ফলাফলগুলির মধ্যে বিপুল সংখ্যাগরিষ্ঠরা আপনার পোস্ট বলে মনে হচ্ছে ... আমি যদি বাছাইপর্ব ছাড়াই "বুটস্ট্র্যাপ" বলি তবে এর থেকে কীভাবে আলাদা? কোন এফ্রন এবং গং নিবন্ধটি আমার সন্ধান করা উচিত? বেশ কয়েকটি আছে বলে মনে হয়।

— রাসেলপিয়ার্স

3

0.632 সম্পর্কে মূল কাগজটি দেখুন যা সঠিকভাবে শ্রেণিবদ্ধ অনুপাতটি ব্যবহার করে এবং সংজ্ঞা দেয় (ইফ্রন এবং তিবশিরানী জাসা 92: 548; 1997)। পক্ষপাত অনুমান করার জন্য আশাবাদ বুটস্ট্র্যাপ বুটস্ট্র্যাপের একটি বৈকল্পিক। এটি গং-তে বর্ণিত হয়েছে: জাসা 85:20; 1990.

— ফ্র্যাঙ্ক হ্যারেল

2

এই উত্তরগুলি খুব দরকারী। আমি এটি গণিত দিয়ে প্রদর্শনের উপায় খুঁজে পাইনি তাই আমি কিছু পাইথন কোড লিখেছিলাম যা বেশ ভালভাবে কাজ করে যদিও:

    from numpy import mean
    from numpy.random import choice

    N = 3000

    variables = range(N)

    num_loop = 1000
    # Proportion of remaining variables
    p_var = []

    for i in range(num_loop):
        set_var = set(choice(variables, N))
        p=len(set_var)/float(N)
        if i%50==0:
            print "value for ", i, " iteration ", "p = ",p
        p_var.append(p)

    print "Estimator of the proportion of remaining variables, ", mean(p_var)

— অনিল নরসিগুইন
সূত্র