বুটস্ট্র্যাপিং কোনও অনুমানকারকের নমুনা বিতরণ আনুমানিক কতটা ভাল করে?


29

বুটস্ট্র্যাপ নিয়ে সম্প্রতি পড়াশোনা করে আমি একটি ধারণামূলক প্রশ্ন নিয়ে এসেছি যা এখনও আমাকে ধাঁধা দেয়:

আপনার জনসংখ্যা রয়েছে এবং আপনি জনসংখ্যার বৈশিষ্ট্যটি জানতে চান, যেমন , যেখানে আমি জনসংখ্যার প্রতিনিধিত্ব করতে ব্যবহার করি । উদাহরণস্বরূপ এই জনসংখ্যা হতে পারে। সাধারণত আপনি জনসংখ্যা থেকে সমস্ত ডেটা পেতে পারেন না। আপনি এখন একটি নমুনা আঁকা আকারের জনসংখ্যা থেকে। ধরে নেওয়া যাক সরলতার জন্য আপনার কাছে আইআইডি নমুনা রয়েছে। তারপরে আপনি আপনার অনুমানকারী ta । আপনি ব্যবহার করতে চান সম্পর্কে মতামতে উপনীত করার , তাই আপনি এর পরিবর্তনশীলতা জানতে চাই ।পি θ এক্স এন θ = ( এক্স ) θ θ θθ=g(P)PθXNθ^=g(X)θ^θθ^

প্রথম, একটি হল সত্য নমুনা বিতরণ । ধারণামূলকভাবে, আপনি জনসংখ্যার থেকে অনেকগুলি নমুনা আঁকতে পারেন (তাদের প্রত্যেকের আকার )। প্রতিবার আপনার উপলব্ধি হওয়ার পরে প্রতিবার আপনার আলাদা নমুনা থাকবে। তারপর শেষ পর্যন্ত, আপনি পুনরুদ্ধার করতে সক্ষম হবে সত্য বিতরণের । ঠিক আছে, অন্তত এই বিতরণের হিসেব ধারণাগত বেঞ্চমার্ক । আমাকে এটা নতুন করে বিবৃত করা যাক: চূড়ান্ত লক্ষ্য অনুমান করার জন্য বিভিন্ন পদ্ধতি ব্যবহার বা আনুমানিক হয় সত্য বিতরণের । এন θ =(এক্স)θ^Nθ^=g(X) θθ^θ^θ^

এখন, এখানে প্রশ্ন আসে। সাধারণত, আপনার কাছে কেবলমাত্র একটি নমুনা যাতে ডেটা পয়েন্ট থাকে। তারপর আপনি এই নমুনা অনেকবার থেকে রীস্যাম্পেল, এবং আপনি একটি বুটস্ট্র্যাপ ডিস্ট্রিবিউশনের সাথে আসতে হবে । আমার প্রশ্ন: of এর সত্য নমুনা বিতরণের এই বুটস্ট্র্যাপ বিতরণটি কতটা কাছাকাছি ? এটি মাপানোর কোন উপায় আছে কি?এন θXNθ^θ^


1
এই অতি সম্পর্কিত প্রশ্নটিতে অতিরিক্ত তথ্য প্রচুর পরিমাণে রয়েছে, এই প্রশ্নটিকে সম্ভবত একটি নকল তৈরি করার ক্ষেত্রে।
শি'য়ান

সবার আগে আমার প্রশ্নের এত তাড়াতাড়ি উত্তর দেওয়ার জন্য আপনাকে ধন্যবাদ জানাই আমি এই ওয়েবসাইটটি প্রথম ব্যবহার করি। আমি কখনই আশা করিনি যে আমার প্রশ্নটি সত্যই কারও দৃষ্টি আকর্ষণ করবে। আমার এখানে একটি ছোট প্রশ্ন আছে, 'ওপি' কী? @ সিলভারফিশ
কেভিনকিম

@ চে জিন: "ওপি" = আসল পোস্টার (যেমন আপনি!) একটি সংক্ষিপ্তসার ব্যবহারের জন্য ক্ষমাপ্রার্থনা, যা আমি গ্রহণ করি তা সম্ভবত বিভ্রান্তিকর।
সিলভারফিশ

1
যাতে এটি আরো ঘনিষ্ঠভাবে আপনার বিবৃতি যে মেলে আমি শিরোনাম সম্পাদনা করেছি 'আমার প্রশ্ন হচ্ছে, কিভাবে বন্ধ প্রকৃত বিতরণের এই হল θ ? এটা পরিমাণ নির্ণয় করার একটি উপায় আছে কি? " আপনি যদি মনে করেন না যে আমার সম্পাদনাটি আপনার উদ্দেশ্যটি প্রতিফলিত করে। θ^
সিলভার ফিশ

@ সিলভারফিশ আপনাকে অনেক ধন্যবাদ আমি যখন এই পোস্টারটি শুরু করি, আমি আসলে আমার প্রশ্ন সম্পর্কে পুরোপুরি নিশ্চিত নই। এই নতুন শিরোনাম ভাল।
কেভিনকিম

উত্তর:


20

ইনফরমেশন থিওরিতে কেএল-ডাইভারজেন্সকে অন্য ডিস্ট্রিবিউশনে কীভাবে "বন্ধ" করা হয় তা মাপার সাধারণ উপায়

হিউস্টন বিমানবন্দরে বিমানের আগতদের বিলম্ব ( এইচএফলাইট প্যাকেজ থেকে ) - এটি একটি উচ্চ স্কিউড দীর্ঘ- লেজুযুক্ত ডেটাসেট দিয়ে চিত্রিত করার চেষ্টা করি । যাক θ গড় মূল্নির্ধারক হও। প্রথমত, আমরা এর স্যাম্পলিং বন্টন এটি θ , এবং তারপর বুটস্ট্র্যাপ বন্টন θθ^θ^θ^

এখানে ডেটাসেট:

এখানে চিত্র বর্ণনা লিখুন

আসল গড়টি 7.09 মিনিট।

প্রথমত, আমরা নমুনা বন্টন পেতে নমুনার একটি নির্দিষ্ট সংখ্যক কি θ , তাহলে আমরা এক নমুনা গ্রহণ করা এবং তা থেকে অনেক বুটস্ট্র্যাপ নমুনা নিতে।θ^

উদাহরণস্বরূপ, আসুন নমুনা আকার 100 এবং 5000 পুনরাবৃত্তি সহ দুটি বিতরণ একবার দেখুন। আমরা দেখতে পাচ্ছি যে এই বিতরণগুলি একেবারেই পৃথক, এবং কেএল ডাইভারজেন্স 0.48।

এখানে চিত্র বর্ণনা লিখুন

তবে যখন আমরা নমুনার আকার 1000 এ বাড়িয়ে তুলি তখন তারা রূপান্তর করতে শুরু করে (কেএল ডাইভারজেন্সটি 0.11)

এখানে চিত্র বর্ণনা লিখুন

এবং যখন নমুনার আকার 5000 হয় তখন এগুলি খুব কাছাকাছি থাকে (কেএল ডাইভারজেন্স 0.01 হয়)

এখানে চিত্র বর্ণনা লিখুন

এই, অবশ্যই, যা বুটস্ট্র্যাপ নমুনা আপনি পেতে উপর নির্ভর করে, কিন্তু আমি মনে করি আপনি দেখতে পারেন যে কেএল বিকিরণ যায় নিচে আমরা নমুনা আকার বাড়ান, এবং এইভাবে বুটস্ট্র্যাপ বন্টন যেমন θ নমুনা বন্টন পন্থা θ কেএল ডাইভারজেন্স পরিপ্রেক্ষিতে। নিশ্চিত হওয়ার জন্য, আপনি বেশ কয়েকটি বুটস্ট্র্যাপ করার চেষ্টা করতে পারেন এবং কেএল ডাইভারজেনের গড় নিতে পারেন।θ^θ^

এই পরীক্ষার আর কোড এখানে: https://gist.github.com/alexeygrigorev/0b97794aea78eee9d794


5
+1 এবং এটিও দেখায় যে কোনও প্রদত্ত নমুনা আকারের জন্য (উদাহরণস্বরূপ 100), বুটস্ট্যাপ পক্ষপাত বড় এবং অনিবার্য হতে পারে।
অ্যামিবা

এই এক দুর্দান্ত! তাই যাতে বিতরণের দিন করার জন্য θ প্রকৃত বিতরণ নিকটবর্তী হতে বুটস্ট্র্যাপ থেকে θ , আমরা বৃহৎ নমুনা আকার প্রয়োজন এন ঠিক আছে? যে কোনও নির্দিষ্ট নমুনা আকারের জন্য, বুটস্ট্র্যাপ থেকে উত্পন্ন বিতরণ @amoeba দ্বারা উল্লিখিত সত্যের বিতরণ থেকে খুব আলাদা হতে পারে। θ^θ^N
কেভিনকিম

আমার পরের প্রশ্নটি: আমি যদি যথেষ্ট পরিমাণে বড় করে ফিক্স করি , তবে আমি 2 টি বুটস্ট্র্যাপ করেছি, একটি মাত্র বি = 10 বার, এবং অন্যটি পুনরায় নমুনা বি = 10000 । বিতরণের মধ্যে পার্থক্য কি θ এই 2 একক প্রয়াস থেকে বের আসছে? এই প্রশ্নের মূলত আমরা যখন ঠিক জিজ্ঞাসা করা হয় এন , কি ভূমিকা চরিত্রে অভিনয় করেন বি বিতরণের উৎপাদিত মধ্যে θ । @ গ্রিগোরভNB=10B=10000θ^NBθ^
কেভিনকিম

1
@Chen কিন্তু বন্টন এর θ এমন কিছু বিষয় যা আপনি করছেন resamples, ডান দ্বারা প্রাপ্ত হয়? সুতরাং এর মধ্যে পার্থক্য বি = 10 এবং বি = 10000 যে এক ক্ষেত্রে হল আপনি পেতে 10 নম্বরগুলি আপনার বন্টন (না অনেক তথ্য গড়ে তুলতে তার মানক চ্যুতির খুব নির্ভরযোগ্য হিসাব), এবং অন্যান্য ক্ষেত্রে আপনি পেতে 10000 নম্বরে (আরো অনেক কিছু নির্ভরযোগ্য)। θ^B=10B=100001010000
অ্যামিবা

1
@ চেন, আমি মনে করি আপনি কিছুটা বিভ্রান্ত হয়ে পড়েছেন বা আপনার মন্তব্যে কী হবে সে সম্পর্কে খুব পরিষ্কার নয় being যদি আপনি 5 বার পুনরায় নমুনা পান তবে আপনি 5 সংখ্যার একটি সেট পান । কিভাবে এটি একটি বিতরণ? এটি সংখ্যার একটি সেট! এই নম্বরগুলি আপনি এফ বি বিতরণ বলেছিলেন সেখান থেকে আসে । আপনি যত বেশি নম্বর পাবেন, এফ বি-এর পরিমাণ অনুমান করতে পারবেন । F555FBFB
অ্যামিবা বলছেন

23

বুটস্ট্র্যাপ সত্য সিডিএফ করার গবেষণামূলক সিডিএফ, যে, অভিসৃতি উপর ভিত্তি করে তৈরি এফ এন ( এক্স ) = 1 এগোয়(যেমন এন অনন্ত যায়)থেকে এফ ( এক্স ) যে জন্য এক্স । অত: পর এর বুটস্ট্র্যাপ বিতরণের অভিসৃতি θ ( এক্স 1 , ... , এক্স এন ) = ( এফ এন ) এই অভিসৃতি যা হারে ঘটে দ্বারা চালিত হয়

F^n(x)=1ni=1nIXixXiiidF(x)
nF(x)xθ^(X1,,Xn)=g(F^n) জন্যপ্রতিটিএক্স, যেহেতুn xএমনকি এই হার যদিও এবং স্বয়ংক্রিয়ভাবে স্থানান্তর না বন্টন সীমিত( এফ এন)। বাস্তবে, পড়তা এর পরিবর্তনশীলতা মূল্যায়ন জন্য, আপনাকে বিতরণের একটি বুটস্ট্র্যাপ মূল্যায়ন তৈরী করতে পারেগ্রাম( এফ এন
n{F^n(x)F(x)}distN(0,F(x)[1F(x)])
g(F^n) ডাবল-বুটস্ট্র্যাপ দ্বারা, অর্থাৎ বুটস্ট্র্যাপ বুটস্ট্র্যাপ মূল্যায়নের মাধ্যমে।g(F^n)

একটি আপডেট হিসাবে, : এখান ক্লাসে একটি চিত্রণ আমি ব্যবহার এখানে চিত্র বর্ণনা লিখুন যেখানে LHS তুলনা সত্য সিডিএফ গবেষণামূলক সিডিএফ সঙ্গে এফ এন জন্য এন = 100 পর্যবেক্ষণ এবং RHS প্লট 250 LHS এর প্রতিরুপ, 250 বিভিন্ন নমুনার জন্য, যাতে সিডিএফ আনুমানিকতার পরিবর্তনশীলতা পরিমাপ করতে। উদাহরণস্বরূপ আমি সত্য জানি এবং তাই আমি পরিবর্তন থেকে মূল্যায়ন করার জন্য সত্য থেকে অনুকরণ করতে পারি। একটি বাস্তবসম্মত পরিস্থিতিতে, আমি জানি না ফাঃ তাই আমি থেকে শুরু করতে হবে এফ এন এর পরিবর্তে একটি অনুরূপ গ্রাফ উত্পাদন করতে।FF^nn=100250FF^n

আরও আপডেট: এমিরিকাল সিডিএফ থেকে শুরু করার সময় টিউব চিত্রটি দেখতে কেমন লাগে তা এখানে: এখানে চিত্র বর্ণনা লিখুন


5
এই উত্তরের ক্রুশটি হ'ল বুটস্ট্র্যাপটি কাজ করে কারণ এটি একটি বৃহত-নমুনা অনুমান । আমি মনে করি না যে এই পয়েন্টটি যথেষ্ট জোর দেওয়া হয়েছে
ছায়াছবির

2
আমার অর্থ, "প্রায়শই সাধারণভাবে যথেষ্ট জোর দেওয়া হয়"
শ্যাডটলকার

F^n=100

3
FnF

@ শি'য়ান খুব সুন্দর! এটি আরও সুন্দর হবে যদি ২ য় এবং তৃতীয় চিত্রটি এক চিত্রে একত্রিত করা যায়
কেভিনকিম
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.