কেন প্রতিটি বুটস্ট্র্যাপ নমুনায় প্রায় দুই তৃতীয়াংশ পর্যবেক্ষণ থাকে?


42

আমি কথন জুড়ে ফেলেছেন প্রতিটি বুটস্ট্র্যাপ নমুনা (অথবা নেন গাছ) গড়ে প্রায় উপস্থিত থাকবে 2/3 পর্যবেক্ষণ।

আমি বুঝি যে না সম্ভাবনা কোনো নির্বাচিত হওয়ার n থেকে স্বপক্ষে n নমুনার সাথে প্রতিস্থাপন (11/n)n যা আনুমানিক আউট কাজ করে 1/3 নির্বাচিত না হওয়ার সুযোগ।

কেন এই সূত্র সবসময় দেয় একটি গাণিতিক ব্যাখ্যা কী 1/3 ?


10
আমার বিশ্বাস এই মূল হল .632 বুটস্ট্র্যাপ 632+ নিয়ম।
গুং - মনিকা পুনরায়

উত্তর:


29

মূলত, বিষয়টি হ'ল limn(11/n)n=e1
(এবং অবশ্যই, e1=1/e1/3 , কমপক্ষে খুব মোটামুটিভাবে) দেখানো ।

এটা খুব ছোট এ কাজ করে n - এ যেমন n=2 , (11/n)n=14 । এটি n = 6\ frac {1} {3 passes কেটে যায় , n5 110.35 এবং n = 99 দ্বারা 0.366 কেটে যায় । একবার আপনি অতিক্রম এন = 11 , অর্থাত \ frac {1} {ই} চেয়ে ভাল পড়তা হয় অর্থাত \ frac {1} {3}13n=60.35n=110.366n=99n=111e13

এখানে চিত্র বর্ণনা লিখুন

ধূসর ড্যাশযুক্ত রেখাটি 13 ; লাল এবং ধূসর লাইন এ 1e

একটি আনুষ্ঠানিক ডেরাইভেশন (যা সহজেই পাওয়া যায়) দেখানোর পরিবর্তে, আমি একটি (সামান্য) আরও সাধারণ ফলাফল কেন রাখার একটি রূপরেখা (যা একটি স্বজ্ঞাত, হস্তবাহিত যুক্তি) দিতে চলেছি:

ex=limn(1+x/n)n

(অনেকে এই হতে নিতে সংজ্ঞা এর , কিন্তু আপনি যেমন সহজ ফলাফল থেকে এটা প্রমাণ করতে পারেন সংজ্ঞা যেমন ।)exp(x)elimn(1+1/n)n

ঘটনা 1: এটি ক্ষমতা এবং ক্ষয়ক্ষমতা সম্পর্কে মৌলিক ফলাফলগুলি থেকে অনুসরণ করেexp(x/n)n=exp(x)

ঘটনা 2: যখন বড় হয়, এটি জন্য সিরিজ সম্প্রসারণ থেকে অনুসরণ করে ।nexp(x/n)1+x/nex

(আমি এগুলির প্রত্যেকের জন্য পূর্ণ যুক্তি দিতে পারি তবে আমি ধরে নিই যে আপনি এটি ইতিমধ্যে জানেন)

(1) সালে বিকল্প (2)। সম্পন্ন. (ক আরো প্রথাগত যুক্তি হিসেবে এটির জন্য কাজ করতে, কিছু কাজ গ্রহণ করা হবে কারণ আপনাকে দেখাতে হবে যে ফ্যাক্ট 2 অবশিষ্ট পদ একটি সমস্যা কারণ বৃহৎ যথেষ্ট যখন ক্ষমতায় যাওয়া হয়ে মেলে না চাই । কিন্তু এই অনুভূতি হয় পরিবর্তে আনুষ্ঠানিক প্রমাণ।)n

[বিকল্পভাবে, কেবল প্রথম অর্ডার করতে জন্য টেলর সিরিজটি নিন । দ্বিতীয় একটি সহজ পদ্ধতির মধ্যে রয়েছে বাইনামিয়াল প্রসারণ নেওয়া এবং সীমাটি পর্যায়ক্রমে গ্রহণ করা, এটি দেখিয়ে the জন্য সিরিজের শর্তাদি দেয় ।]exp(x/n)(1+x/n)nexp(x/n)

সুতরাং যদি , কেবল বিকল্প ।ex=limn(1+x/n)nx=1

তাত্ক্ষণিকভাবে, আমরা এই উত্তরের শীর্ষে ফলাফল পেয়েছি,limn(11/n)n=e1


যেমন গুং মন্তব্যগুলিতে উল্লেখ করেছে, আপনার প্রশ্নের ফলাফলটি 2৩২ বুটস্ট্র্যাপ নিয়মের উত্স

যেমন দেখুন

এফ্রন, বি। এবং আর তিবশিরানী (১৯৯)),
"ক্রস-বৈধকরণের উন্নতি: দ্য .৩৩২+ বুটস্ট্র্যাপ পদ্ধতি,"
আমেরিকান স্ট্যাটিস্টিকাল অ্যাসোসিয়েশন খণ্ডের জার্নাল । 92, নং 438. (জুন), পৃষ্ঠা 548-560


41

আরও স্পষ্টভাবে, প্রতিটি বুটস্ট্র্যাপ নমুনা (বা ব্যাগযুক্ত গাছ) নমুনার ধারণ করবে।11e0.632

বুটস্ট্র্যাপ কীভাবে কাজ করে তা চলুন। আমরা একটি মূল নমুনা আছে সঙ্গে এতে আইটেম। আমরা আইটেম আঁকা প্রতিস্থাপন সঙ্গে এই মূল সেট থেকে যতক্ষণ না আমরা আকারের আরেকটি সেট আছে ।x1,x2,xnnn

যে থেকে বোঝা যায় যে কোনো একটি আইটেম (বলুন, নির্বাচন সম্ভাবনা প্রথম ড্র দিকে) হয় । অতএব, সম্ভাবনা না ঐ আইটেমটির নির্বাচন করা হয় । এটি কেবল প্রথম ড্রয়ের জন্য; মোট ড্র আছে, সেগুলি সবই স্বতন্ত্র, সুতরাং কোনও অঙ্কনে এই আইটেমটি পছন্দ না করার সম্ভাবনা হ'ল ।x11n11nn(11n)n

এখন, আরও বড় হয়ে যাওয়ার পরে কী ঘটে যায় তা ভেবে দেখা যাক । সাধারণ ক্যালকুলাস ট্রিকস (বা ওল্ফ্রাম আলফা) ব্যবহার করে অনন্তের দিকে যাওয়ার সাথে আমরা সীমাটি নিতে পারি : nn

limn(11n)n=1e0.368

এটি কোনও আইটেম চয়ন না হওয়ার সম্ভাবনা । আইটেমটি নির্বাচিত হওয়ার সম্ভাবনা খুঁজে পেতে এটি এক থেকে বিয়োগ করুন, যা আপনাকে 0.632 দেয়।


5

প্রতিস্থাপনের সাথে স্যাম্পলিং দ্বিপাক্ষিক পরীক্ষার ক্রম হিসাবে মডেল করা যেতে পারে যেখানে "সাফল্য" একটি উদাহরণ নির্বাচিত হচ্ছে। এর একটি মূল ডেটা সেটটি জন্য দৃষ্টান্ত, "সফল" সম্ভাব্যতা , এবং "ব্যর্থতা" সম্ভাব্যতা । নমুনা আকারের জন্য , দ্বিগুণ বিতরণ দ্বারা ঠিক বার উদাহরণ নির্বাচন করার প্রতিক্রিয়া দেওয়া হয়েছে:n1/n(n1)/nbx

P(x,b,n)=(1n)x(n1n)bx(bx)

একটি বুটস্ট্র্যাপ নমুনা নির্দিষ্ট ক্ষেত্রে, নমুনা আকার দৃষ্টান্ত সংখ্যা সমান । লেটিং পদ্ধতির অনন্ত, আমরা পাই:bnn

limn(1n)x(n1n)nx(nx)=1ex!

যদি আমাদের আসল ডেটাসেটটি বড় হয় তবে আমরা এই সূত্রটি ব্যবহারের সম্ভাবনাটি গণনার জন্য ব্যবহার করতে পারি যে কোনও উদাহরণ বুটস্ট্র্যাপ নমুনায় ঠিক বার নির্বাচিত হয়েছে। জন্য , সম্ভাব্যতা , বা মোটামুটিভাবে । কমপক্ষে একবার উদাহরণের নমুনা হওয়ার সম্ভাবনাটি এভাবে ।x = 0 1 / e 0.368 1 - 0.368 = 0.632xx=01/e0.36810.368=0.632

বলা বাহুল্য, আমি কঠোরতার সাথে কলম এবং কাগজ ব্যবহার করে এটি উত্পন্ন করেছি এবং ওল্ফ্রাম আলফা ব্যবহারের বিষয়টি বিবেচনাও করি নি।


3

কেবলমাত্র @ রিটার্গের উত্তরে যুক্ত করা এটি আর সংখ্যার সিমুলেশন এর মাধ্যমেও খুব সহজেই প্রদর্শিত হতে পারে:

N <- 1e7 # number of instances and sample size
bootstrap <- sample(c(1:N), N, replace = TRUE)
round((length(unique(bootstrap))) / N, 3)
## [1] 0.632

1

এটি সহজেই গণনা দ্বারা দেখা যায়। মোট কতগুলি সম্ভব নমুনা? এন ^ এন। নির্দিষ্ট মান সমেত কতজন নেই? (ঢ -1) ^ এন। কোনও স্যাম্পেলের নির্দিষ্ট মান না থাকার সম্ভাবনা - (1-1 / n) ^ n, যা সীমাতে প্রায় 1/3।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.