লাইপোপোলেদের বোঝানো হচ্ছে কেন বুটস্ট্র্যাপিং কাজ করে


326

আমি সম্প্রতি একটি প্রকল্পের আত্মবিশ্বাসের ব্যবধানগুলি অনুমান করতে বুটস্ট্র্যাপিং ব্যবহার করেছি। পরিসংখ্যান সম্পর্কে খুব বেশি জানেন না এমন কেউ সম্প্রতি আমাকে বুটস্ট্র্যাপিং কেন কাজ করে তা বোঝাতে বলেছিলেন, অর্থাত্ কেন একই নমুনাটি বার বার পুনরায় তৈরি করা ভাল ফলাফল দেয়। আমি বুঝতে পেরেছিলাম যে এটি কীভাবে ব্যবহার করতে হবে তা বোঝার জন্য আমি অনেক সময় ব্যয় করেছি, তবে বুটস্ট্র্যাপিং কেন কাজ করে তা আমি সত্যিই বুঝতে পারি না।

বিশেষত: আমরা যদি আমাদের নমুনা থেকে পুনঃনির্মাণ করছি, তবে কীভাবে আমরা কেবলমাত্র নমুনাটি না দিয়ে জনসংখ্যা সম্পর্কে কিছু শিখছি? সেখানে একটি লিপ বলে মনে হচ্ছে যা কিছুটা স্ব-স্বজ্ঞাত।

আমি এই প্রশ্নের কয়েকটি উত্তর এখানে পেয়েছি যা আমি অর্ধেক বুঝি। বিশেষত এই এক । আমি পরিসংখ্যানের "ভোক্তা", কোনও পরিসংখ্যানবিদ নই এবং আমি এমন লোকদের সাথে কাজ করি যারা আমার চেয়ে পরিসংখ্যান সম্পর্কে খুব কম জানেন। সুতরাং, বুটস্ট্র্যাপের পিছনে মৌলিক যুক্তি ইত্যাদির সাথে নূন্যতম রেফারেন্স সহ কেউ ব্যাখ্যা করতে পারেন? অর্থাৎ যদি আপনার প্রতিবেশীকে এটি ব্যাখ্যা করতে হয় তবে আপনি কী বলবেন?


13
(+1) আপনি যে প্রশ্নগুলি দেখেছেন সেগুলি আপনি সংক্ষেপে উল্লেখ করতে পারেন তবে এটি আপনাকে যথেষ্ট সন্তুষ্ট করে না। আছে প্রচুর বুটস্ট্র্যাপ এখানে প্রশ্ন। :)
কার্ডিনাল

@ কার্ডিনালাল ধন্যবাদ, আমি মূল পোস্টটি আপডেট করেছি। আশা করি এটি আরও পরিষ্কার। :)
অ্যালান এইচ।

5
একটি বিষয় লক্ষণীয় - বুটস্ট্র্যাপিং শ্রেণিবদ্ধভাবে কাঠামোগত ডেটার জন্য যেমন সহজে কাজ করে না - যেমন মাল্টি-লেভেল মডেল এবং মাল্টি-স্টেজ স্যাম্পলিং ডিজাইন। আপনার "কোন বুটস্ট্র্যাপ" ব্যবহার করা উচিত তা জেনে খুব বিভ্রান্তিকর।
সম্ভাব্যতাব্লোগিক

2
মূলত, বুটস্ট্র্যাপ কাজ করে কারণ এটি ননপ্রেমেট্রিক সর্বাধিক সম্ভাবনা। সুতরাং, যখন সর্বাধিক সম্ভাবনার সমস্যা রয়েছে তখন আপনি বুটস্ট্র্যাপ নিয়ে সমস্যা আশা করতে পারেন।
কেজেটিল বি হালওয়ারসেন

3
জেক ভ্যান্ডারপ্লাস বুটস্ট্র্যাপিং এবং অন্যান্য কিছু সম্পর্কিত কৌশল সম্পর্কে পাইকন 16 এ দুর্দান্ত আলোচনা করেছিলেন। দেখুন স্লাইড স্লাইড 71 এবং এ শুরু ভিডিও রেকর্ডিং
thm

উত্তর:


198

আমি যে মাঝারি দৈর্ঘ্যের সংস্করণটি দেয় তা সাধারণত এভাবে যায়:

আপনি একটি জনসংখ্যার প্রশ্ন জিজ্ঞাসা করতে চান তবে আপনি পারবেন না। সুতরাং আপনি একটি নমুনা নিন এবং পরিবর্তে এর প্রশ্ন জিজ্ঞাসা করুন। এখন, আপনার কতটা আত্মবিশ্বাসী হওয়া উচিত যে নমুনা উত্তরটি জনসংখ্যার উত্তরের নিকটেই স্পষ্টতই জনসংখ্যার কাঠামোর উপর নির্ভর করে। আপনি এটি সম্পর্কে শিখতে পারেন এমন একটি উপায় হ'ল বারবার জনগণের কাছ থেকে নমুনা নেওয়া, তাদের প্রশ্ন জিজ্ঞাসা করা, এবং দেখুন যে নমুনার উত্তরগুলি কতটা পরিবর্তনশীল। যেহেতু এটি সম্ভব নয় আপনি জনসংখ্যার আকৃতি সম্পর্কে কিছু ধারণা তৈরি করতে পারেন , বা আপনি যে নমুনাটি সম্পর্কে আসলে এটি শিখতে পারেন সে তথ্যটি ব্যবহার করতে পারেন ।

কল্পনা করুন আপনি অনুমান করার সিদ্ধান্ত নিয়েছেন, উদাহরণস্বরূপ যে এটি সাধারণ, বা বার্নোল্লি বা অন্য কোনও সুবিধাজনক কল্পকাহিনী। পূর্ববর্তী কৌশল অনুসরণ করে আপনি আবার জানতে পারবেন যে কোনও নমুনা জিজ্ঞাসা করা হলে আপনার প্রশ্নের উত্তর কতটা আলাদা হতে পারে তার উপর নির্ভর করে আপনি যে নির্দিষ্ট নমুনাটি পেয়েছিলেন তার একই আকারের বারবার নমুনা তৈরি করে এবং সেগুলি একই জিজ্ঞাসা করে আপনি যে নির্দিষ্ট নমুনাটি পেয়েছেন তার উপর নির্ভর করে প্রশ্ন। এটি যে পরিমাণে আপনি গণনামূলকভাবে সুবিধাজনক অনুমানগুলি বেছে নিয়েছেন তা সোজা হবে। (প্রকৃতপক্ষে বিশেষত সুবিধাজনক অনুমান এবং প্লাস অ-তুচ্ছ গণিত আপনাকে স্যাম্পলিংয়ের অংশটি পুরোপুরি বাইপাস করার অনুমতি দিতে পারে, তবে আমরা ইচ্ছাকৃতভাবে এটিকে এখানে উপেক্ষা করব will)

এটি অনুমান করাতে খুশি হ'ল এটি একটি ভাল ধারণা বলে মনে হচ্ছে। কল্পনা করুন আপনি না। বিকল্পটি হ'ল আপনার কাছে থাকা নমুনাটি নেওয়া এবং পরিবর্তে এটি থেকে নমুনা নেওয়া। আপনি এটি করতে পারেন কারণ আপনার কাছে থাকা নমুনাটিও একটি জনসংখ্যা, খুব ছোট একটি পৃথক; এটি আপনার ডেটা হিস্টগ্রামের মতো দেখাচ্ছে। 'প্রতিস্থাপনের সাথে স্যাম্পলিং' নমুনার জনসংখ্যার মতো আচরণ করার এবং এটির আকারটি প্রতিবিম্বিত করে এমনভাবে নমুনা দেওয়ার সহজ উপায়।

এটি করার জন্য একটি যুক্তিসঙ্গত জিনিস কারণ কেবলমাত্র নমুনা আপনার পক্ষে সেরা, প্রকৃতপক্ষে জনসংখ্যা আসলে কী দেখায় সে সম্পর্কে আপনার কেবলমাত্র তথ্যই নয়, তবে বেশিরভাগ নমুনা, যদি এলোমেলোভাবে বেছে নেওয়া হয় তবে বেশিরভাগের মতো দেখতে পাবেন জনসংখ্যা তারা এসেছে। ফলস্বরূপ সম্ভবত এটি আপনারও হয়।

স্বজ্ঞাততার জন্য এটি বিভিন্নভাবে এবং বিভিন্ন অনুমানের ভিত্তিতে উত্পন্ন নমুনা তথ্যকে একত্রিত করে আপনি কীভাবে পরিবর্তনশীলতা সম্পর্কে শিখতে পারেন তা চিন্তা করা গুরুত্বপূর্ণ। গা closed় আকারের গাণিতিক সমাধানগুলির সম্ভাব্যতাটিকে সম্পূর্ণ উপেক্ষা করা এ সম্পর্কে পরিষ্কার হওয়া গুরুত্বপূর্ণ।


5
চমৎকার উত্তর. আমি বিশেষত পেনাল্টিমেট অনুচ্ছেদে পছন্দ করি।
পিটার ফ্লুম

19
(+1) এটি একটি ভাল উত্তর। যদিও আমি মনে করি একটি খুব গুরুত্বপূর্ণ পয়েন্টটি আরও আঁকার উপায় আছে তবে। বুটস্ট্র্যাপটি সাধারণত যেভাবে পরিচালিত হয়, সেখানে দুটি প্রভাব রয়েছে। প্রথমত, আমরা ভান করছি যে আমরা যে নমুনাটি পেয়েছি তা আমাদের জনগণের জন্য প্রক্সি। এটি নামমাত্রভাবে করার মতো যুক্তিসঙ্গত জিনিস, তবে আমাদের নমুনার আকারটি যুক্তিসঙ্গতভাবে বড় হয়। যাইহোক, আমাদের সাধারণত সেই ভান বিতরণ থেকে আগ্রহের প্রকৃত পরিমাণের গণনা করতে খুব শক্ত হয়। সুতরাং , আমাদের সেগুলি অনুমান করতে হবে এবং এ কারণেই আমরা প্রচুর বুটস্ট্র্যাপের নমুনা আঁকছি। আমরা যদি ... / ...
কার্ডিনাল

11
... / ... আমাদের ভান বিতরণের জন্য সরাসরি আগ্রহের পরিমাণ গণনা করুন, আমরা এটি করতে পছন্দ করব। এবং, এটি আসল বুটস্ট্র্যাপ হবে। তবে, সাধারণত আমরা পারব না, সুতরাং আমরা পরিবর্তে পুনর্নির্মাণের জন্য হ্রাস পেয়েছি।
কার্ডিনাল

8
@ নট ১০১১: "যুক্তিসঙ্গতভাবে বড়" কে ডি কেডব্লিউ অসমতার দ্বারা যথেষ্ট পরিমাণে মাপ দেওয়া যেতে পারে (যদি আপনি চান তবে আপনি ওপির প্রশ্নের লিঙ্কে আমার উত্তরটি দেখতে পারেন) এবং প্রচুর পরিমাণে , এটি আগ্রহের নমুনার পরিসংখ্যানের উপর নির্ভর করে, কিন্তু যদি আমরা আছে বুটস্ট্র্যাপ নমুনা, তাহলে সহজ মন্টে কার্লো সাথে আমরা জানি যে মান ত্রুটি আদেশ হয় মোটামুটিভাবে হে ( বি - 1 / 2 )BO(B1/2)
কার্ডিনাল

4
@ কার্ডিনাল: চমৎকার মন্তব্য। প্রচুর লোকেরা মনে করেন যে বুটস্ট্র্যাপ এবং পুনরায় মডেলিং একই জিনিস যখন বাস্তবে পূর্ববর্তীটি পূর্বের জন্য ব্যবহৃত একটি সরঞ্জাম। অনুরূপ একটি ভুল ধারণাটি হ'ল পরিসংখ্যানগুলির অনেক ব্যবহারকারী এমসিএমসি এবং বায়সিয়ান বিশ্লেষণকে বিভ্রান্ত করার প্রবণতা পান।
MTnsT

122

+ কনজুগেটপ্রিয়রকে +1 করতে, আমি কেবল একটি উত্তরটি প্রকাশ করতে চাই যা তার উত্তরে অন্তর্ভুক্ত। প্রশ্নটি জিজ্ঞাসা করে, "আমরা যদি আমাদের নমুনাটি থেকে পুনর্নির্মাণ করছি, তবে কীভাবে আমরা কেবলমাত্র নমুনাটি না দিয়ে জনসংখ্যা সম্পর্কে কিছু শিখছি?" রীস্যাম্পেলিং হয় না জনসংখ্যা বণ্টনের একটি অনুমান প্রদান সম্পন্ন - আমরা জনসংখ্যার একটি মডেল হিসেবে আমাদের নমুনা নিজেই নিতে। বরং, প্রশ্নে নমুনা পরিসংখ্যানগুলির নমুনা বিতরণের একটি প্রাক্কলন সরবরাহ করার জন্য পুনরায় মডেলিং করা হয় ।


10
(+1) এটি কনজুগেটপ্রাইজের উত্তরের মন্তব্যে আমি যে বক্তব্যটি দেওয়ার চেষ্টা করেছিলাম তার কাছাকাছি, যদিও আপনি এটিকে আরও সংক্ষিপ্ত এবং স্পষ্ট করে বলেছেন। কিছু বিশেষ ক্ষেত্রে, আমরা নমুনা থেকে প্রাপ্ত বুদ্ধিমান বিতরণের অধীনে পরীক্ষার পরিসংখ্যানগুলির নমুনা বিতরণ গণনা করতে পারি । তবে, সাধারণত, আমরা তা করতে পারি না এবং তাই আমরা সিমুলেশনটিতে বাধ্য হয়েছি। :)
কার্ডিনাল

7
আমি দেখতে পাচ্ছি, তাই যদি আমি আপনাকে বুঝতে পারি, তবে এই কৌশলটি ধরে নিয়েছে যে নমুনাটি জনসংখ্যার পর্যাপ্ত মডেল, এবং সেই কারণেই সেই পরিমাণে পুনর্নির্মাণটি যথেষ্ট পরিমাণে জনসংখ্যা সম্পর্কে কিছু প্রকাশ করবে, তবে কেবলমাত্র সেই পরিমাণে মূল নমুনা একটি ভাল এক। এখন যেহেতু আমি সেভাবে রেখেছি এটি প্রায় সুস্পষ্ট বলে মনে হচ্ছে ...
অ্যালান এইচ।

4
@ অ্যালানহ।, আমি কেবল "..." " জনগণের " সম্পর্কে "..." নমুনা বিতরণ সম্পর্কে কিছু প্রকাশ করব "(ইস্যুতে পরিসংখ্যান সম্পর্কিত, উদাহরণস্বরূপ) পরিবর্তন করতে চাই" change তবে, হ্যাঁ, আপনি এটা সেখানে আছে
gung

আপনি অবশ্যই ঠিক আছেন। ব্যক্তিগতভাবে এবং নিখুঁতভাবে শিক্ষামূলক কারণে, আমি আমার 'দীর্ঘতর সংস্করণ'-এর জন্য এই পয়েন্টটি সংরক্ষণ করি, কারণ আমার বিশেষ শ্রোতাদের এই বিন্দুটি খুব শীঘ্রই প্রয়োগ করা হলে তাদের তরুণ এবং এখনও অস্থির স্বীকৃতিগুলিকে কিছুটা ব্যালেন্সের দিকে ঠেলে দেয়।
কনজুগেটপায়ার

3
@ ইরোস্রাম, বুটস্ট্র্যাপিং কোনও কিছুর নমুনা বিতরণ নির্ধারণ করা। আপনি এটি একটি নমুনা পরিসংখ্যান (উদাহরণস্বরূপ 56 তম পার্সেন্টাইল) বা পরীক্ষার পরিসংখ্যান (টি) ইত্যাদির জন্য করতে পারেন do আমার দ্বিপদী প্রাক্তনে, নমুনা বিতরণ অবশ্যই 0 টি মাথা হবে - 25%; 1 মাথা - 50%; 2 মাথা - 25%; এটি পরিষ্কার ডাব্লু / ও রিম্যাপলিং। কার্ডিনাল এর কোথাও একটি মন্তব্য আছে যা এটি ব্যাখ্যা করে (সাইটের সর্বোত্তম উত্তরগুলির মধ্যে বেশ কয়েকটি কার্ডিনালের মন্তব্য) তবে এটি খালি মন্তব্য / মন্তব্য খুঁজে পাওয়া শক্ত।
গাং

43

এটি সম্ভবত এমন কিছু প্রযুক্তিগত ব্যাখ্যা যাঁরা কিছু পরিসংখ্যান এবং গণিত (ক্যালকুলাস, কমপক্ষে) বোঝেন তাদের লক্ষ্য করে। জরিপ বুটস্ট্র্যাপগুলির একটি কোর্সের একটি স্লাইড যা আমি কিছুক্ষণ আগে শিখিয়েছি:

বুটস্ট্র্যাপ নীতি

অবশ্যই কিছু ব্যাখ্যা প্রয়োজন। হ'ল বিদ্যমান তথ্য থেকে পরিসংখ্যান প্রাপ্ত করার পদ্ধতি (বা প্রযুক্তিগতভাবে সুনির্দিষ্টভাবে বলা যায়, বিতরণ ফাংশন থেকে আসল সংখ্যায় কার্যকর; উদাহরণস্বরূপ, গড়টি E [ X ] = x d F , যেখানে নমুনা বিতরণের জন্য F n ( ) ফাংশন , ডি এফ একটি নমুনা বিন্দুতে পয়েন্ট ভর হিসাবে বোঝা যায়)। জনসংখ্যায়, এফ ( ) দ্বারা চিহ্নিত , টি প্রয়োগ করে সুদের প্যারামিটার দেয় θTE[X]=xdFFn()dFF()Tθ। এখন আমরা একটি নমুনা (শীর্ষ প্রথম তীর) গ্রহণ করেছি, এবং গবেষণামূলক বণ্টনের ফাংশনের আছে - আমরা প্রয়োগ টি এটি অনুমান প্রাপ্ত θ এনΘ এর থেকে কত দূরে , আমরা অবাক হই? বন্টন র্যান্ডম পরিমাণ যে কি θ এন প্রায় থাকতে পারে θ ? ডায়াগ্রামের নীচের বামে এটিই প্রশ্ন চিহ্ন এবং বুটস্ট্র্যাপ উত্তর দেওয়ার চেষ্টা করে এমন প্রশ্ন। গুং এর বক্তব্য পুনরুদ্ধার করার জন্য, এটি জনসংখ্যা সম্পর্কে প্রশ্ন নয়, তবে একটি নির্দিষ্ট পরিসংখ্যান এবং এর বিতরণ সম্পর্কে প্রশ্ন।Fn()Tθ^nθθ^nθ

আমরা যদি আমাদের স্যাম্পলিং পদ্ধতিটি পুনরাবৃত্তি করতে পারি, আমরা সেই বিতরণটি পেতে পারি এবং আরও শিখতে পারি। ঠিক আছে, এটি সাধারণত আমাদের সামর্থ্যের বাইরে। তবে, যদি

  1. যথাযথঅর্থে F এর নিকটতম, এবংFnF
  2. ম্যাপিং , যথেষ্ট মসৃণ, অর্থাত্ যদি আমরা থেকে ছোট বিচ্যুতি নেওয়া এফ ( ) , ফলাফল পাসে নম্বরে ম্যাপ করা হবে θ ,TF()θ

আমরা আশা করতে পারি যে বুটস্ট্র্যাপ পদ্ধতিটি কার্যকর হবে। যেমন, আমরা দাবী করে যে, আমাদের ডিস্ট্রিবিউশন হয় বদলে এফ ( ) , এবং যে সঙ্গে আমরা সব সম্ভব নমুনার আতিথ্য করতে পারেন - এবং সেখানে থাকবে এন এন যেমন নমুনা, যার জন্য শুধুমাত্র বাস্তবসম্মতভাবে এন 5 । আমাকে আবার পুনরাবৃত্তি করা যাক: বুটস্ট্র্যাপ নমুনা বন্টন তৈরি করতে কাজ করে θ * এন প্রায় "সত্যিকারের" প্যারামিটারটি θ এন , এবং আমরা আশা করি যে দুই উপরে অবস্থার সঙ্গে, এই স্যাম্পলিং বিতরণের স্যাম্পলিং ডিস্ট্রিবিউশন সম্পর্কে তথ্যপূর্ণ θFn()F()nnn5θ^nθ^n প্রায় θ :θ^এনθ

θ^এন* প্রতি θ^এন মত θ^এন প্রতি θ

এখন, পরিবর্তে শুধু তীর বরাবর এক উপায় যাচ্ছে, এবং এই তীর বরাবর কিছু তথ্য / সঠিকতা হারানোর, আমরা ফিরে যান এবং এর পরিবর্তনশীলতা সম্পর্কে কিছু বলতে পারেন θ * এন প্রায় θ এনθ^এন*θ^এন

উপরের শর্তগুলি হলের (১৯৯১) বইতে একেবারে প্রযুক্তিগতভাবে বানিয়েছে । ক্যালকুলাস বোঝার জন্য যা আমি বলেছিলাম যে এই স্লাইডটি দেখার জন্য পূর্বশর্ত হিসাবে প্রয়োজন হতে পারে মসৃণতা সম্পর্কিত দ্বিতীয় অনুমান: আরও আনুষ্ঠানিক ভাষায়, কার্যকরী অবশ্যই একটি দুর্বল ডেরাইভেটিভের অধিকারী হতে হবে। প্রথম শর্ত, অবশ্যই, একটি মধ্যে asymptotic বিবৃতি হল: বৃহত্তর আপনার নমুনা, কাছাকাছি এফ এন করার হওয়া উচিত এফ ; এবং থেকে দূরত্বের θ * এন করতে θ এন থেকে যারা হিসাবে মাত্রার একই আদেশ হওয়া উচিত θ এন করতে θটিএফএনএফθ^এন*θ^এনθ^এনθ। এই অবস্থায় ভঙ্গ করতে পারে, এবং তারা ভঙ্গ না অদ্ভুত যথেষ্ট পরিসংখ্যান এবং / অথবা স্যাম্পলিং স্কিম যে গবেষণামূলক ডিস্ট্রিবিউশন যে যথেষ্ট কাছাকাছি উত্পাদন পারেন না ব্যবহারিক পরিস্থিতিতে একটি সংখ্যা এফ

এনএনθ^এনθθ^এন(*R)θ^এন*θ^এন


7
এই উত্তরটি কোনও শ্রোতাদের কাছে অ্যাক্সেসযোগ্য হওয়ার চেষ্টা করার বিন্দুটি পুরোপুরি মিস করে।
ত্রিপরিটো

20

আমি এই প্রশ্নের উত্তর দিচ্ছি কারণ আমি একমত যে এটি করা একটি কঠিন কাজ এবং এখানে অনেকগুলি ভুল ধারণা রয়েছে। এফ্রন এবং ডায়াকনিস তাদের ১৯৮৩ সালের বৈজ্ঞানিক আমেরিকান নিবন্ধে এবং আমার দৃষ্টিতে এটি করার চেষ্টা করেছিল। বুটস্ট্র্যাপের জন্য উত্সর্গীকৃত বেশ কয়েকটি বই রয়েছে যা একটি ভাল কাজ করে। এফ্রন এবং তিবশিরানী ১৯৮6 সালে পরিসংখ্যান বিজ্ঞানে তাদের নিবন্ধে দুর্দান্ত কাজ করেছেন I আমি বুটস্ট্র্যাপ পদ্ধতিতে বইটিতে অনুশীলনকারীদের বুটস্ট্র্যাপকে অ্যাক্সেসযোগ্য করে তোলার জন্য বিশেষ চেষ্টা করেছি এবং আর। হলের বইয়ের অ্যাপ্লিকেশন সহ বুটস্ট্র্যাপে আমার প্রবর্তন দুর্দান্ত তবে খুব উন্নত এবং তাত্ত্বিক । টিম হেস্টারবার্গ ডেভিড মুরের একটি সূচনাকারী পরিসংখ্যান বইতে একটি দুর্দান্ত পরিপূরক অধ্যায় লিখেছেন। দেরী ক্লিফোর্ড লুনবার্গের একটি চমৎকার বই ছিল। চিহারা এবং হেস্টারবার্গ সম্প্রতি একটি মধ্যবর্তী স্তরের গাণিতিক পরিসংখ্যান বই নিয়ে বেরিয়ে এসেছেন যাতে বুটস্ট্র্যাপ এবং অন্যান্য পুনর্নির্মাণের পদ্ধতিগুলি রয়েছে। এমনকি লাহিড়ির বা শাও এবং তু-র মতো উন্নত বইগুলি ভাল ধারণাগত ব্যাখ্যা দেয়। ম্যানলি তার বইয়ের সাথে ভাল কাজ করেছেন যা ক্রমশক্তি এবং বুটস্ট্র্যাপকে অন্তর্ভুক্ত করে বুটস্ট্র্যাপ সম্পর্কে আর বিস্মিত হওয়ার কোনও কারণ নেই। এটি মনে রাখা জরুরী যে বুটস্ট্র্যাপ বুটস্ট্র্যাপের নীতির উপর নির্ভর করে "প্রতিস্থাপনের সাথে নমুনাটি একটি নমুনা যেমন একটি জনসংখ্যার সাথে আচরণ করে তা মূল নমুনার সাথে আচরণ করে There উদাহরণ রয়েছে যেখানে এই নীতিটি ব্যর্থ হয়। এটি জানা গুরুত্বপূর্ণ যে বুটস্ট্র্যাপ প্রতিটি পরিসংখ্যানগত সমস্যার উত্তর নয়। s ভাল ধারণা ব্যাখ্যা। ম্যানলি তার বইয়ের সাথে ভাল কাজ করেছেন যা ক্রমশক্তি এবং বুটস্ট্র্যাপকে অন্তর্ভুক্ত করে বুটস্ট্র্যাপ সম্পর্কে আর বিস্মিত হওয়ার কোনও কারণ নেই। এটি মনে রাখা জরুরী যে বুটস্ট্র্যাপ বুটস্ট্র্যাপের নীতির উপর নির্ভর করে "প্রতিস্থাপনের সাথে নমুনাটি একটি নমুনা যেমন একটি জনসংখ্যার সাথে আচরণ করে তা মূল নমুনার সাথে আচরণ করে There উদাহরণ রয়েছে যেখানে এই নীতিটি ব্যর্থ হয়। এটি জানা গুরুত্বপূর্ণ যে বুটস্ট্র্যাপ প্রতিটি পরিসংখ্যানগত সমস্যার উত্তর নয়। s ভাল ধারণা ব্যাখ্যা। ম্যানলি তার বইয়ের সাথে ভাল কাজ করেছেন যা ক্রমশক্তি এবং বুটস্ট্র্যাপকে অন্তর্ভুক্ত করে বুটস্ট্র্যাপ সম্পর্কে আর বিস্মিত হওয়ার কোনও কারণ নেই। এটি মনে রাখা জরুরী যে বুটস্ট্র্যাপ বুটস্ট্র্যাপের নীতির উপর নির্ভর করে "প্রতিস্থাপনের সাথে নমুনাটি একটি নমুনা যেমন একটি জনসংখ্যার সাথে আচরণ করে তা মূল নমুনার সাথে আচরণ করে There উদাহরণ রয়েছে যেখানে এই নীতিটি ব্যর্থ হয়। এটি জানা গুরুত্বপূর্ণ যে বুটস্ট্র্যাপ প্রতিটি পরিসংখ্যানগত সমস্যার উত্তর নয়। প্রতিস্থাপনের সাথে নমুনা আসল নমুনার সাথে আচরণ করে যেভাবে একটি নমুনা জনগোষ্ঠীর সাথে আচরণ করে। এই নীতিটি ব্যর্থ হয় এমন উদাহরণ রয়েছে। এটি জেনে রাখা গুরুত্বপূর্ণ যে বুটস্ট্র্যাপ প্রতিটি পরিসংখ্যানগত সমস্যার উত্তর নয়। প্রতিস্থাপনের সাথে নমুনা আসল নমুনার সাথে আচরণ করে যেভাবে একটি নমুনা জনগোষ্ঠীর সাথে আচরণ করে। এই নীতিটি ব্যর্থ হয় এমন উদাহরণ রয়েছে। এটি জেনে রাখা গুরুত্বপূর্ণ যে বুটস্ট্র্যাপ প্রতিটি পরিসংখ্যানগত সমস্যার উত্তর নয়।

আমি উল্লিখিত সমস্ত বইয়ের জন্য অ্যামাজন লিঙ্কগুলি রয়েছে।

পুনরায় মডেলিং এবং আর এর সাথে গাণিতিক পরিসংখ্যান

বুটস্ট্র্যাপ পদ্ধতি এবং তাদের প্রয়োগ

বুটস্ট্র্যাপ পদ্ধতি: অনুশীলনকারী এবং গবেষকদের জন্য একটি গাইড

আর-তে অ্যাপ্লিকেশন সহ বুটস্ট্র্যাপ পদ্ধতিগুলির পরিচিতি

নির্ভরশীল ডেটার জন্য পুনঃনির্মাণের পদ্ধতিগুলি

জীববিজ্ঞানে র্যান্ডমাইজেশন, বুটস্ট্র্যাপ এবং মন্টি কার্লো পদ্ধতি

বুটস্ট্র্যাপের একটি ভূমিকা

ব্যবসায়িক পরিসংখ্যানের অনুশীলনের অনুষঙ্গ 18 অধ্যায়: বুটস্ট্র্যাপ পদ্ধতি এবং অনুমতি পরীক্ষা

পুনঃনির্মাণের মাধ্যমে ডেটা বিশ্লেষণ: ধারণা এবং অ্যাপ্লিকেশন

জ্যাকনিফ, বুটস্ট্র্যাপ এবং অন্যান্য পুনর্নির্মাণের পরিকল্পনা

জ্যাকনিফ এবং বুটস্ট্র্যাপ

অনুমানের পারমুটেশন, প্যারামিট্রিক এবং বুটস্ট্র্যাপ টেস্ট

বুটস্ট্র্যাপ এবং এজওয়ার্থ এক্সপেনশন


2
@Procrastinator। আমি আরও প্রায়ই এটি করছি। কিছু ক্ষেত্রে আমি আমার উত্তর পোস্ট করার জন্য তাড়াহুড়ো করে পরে এটিকে পরিষ্কার করতে ফিরে আসছি। লিঙ্কের ঠিকানাগুলিকে শিরোনাম অনুসারে লিঙ্কগুলিতে রূপান্তর করার হ্যাং আমি পাইনি এবং আমি নিশ্চিত নই যে এটি প্রয়োজনীয় সমস্ত। এটি যে কোনও উপায়ে একক ক্লিক তবে আপনি যদি এটির জন্য অপেক্ষা করতে না পারেন তবে আমি আপনাকে সম্পাদনাগুলি করতে আপত্তি করি না। আসলে আমি এটি প্রশংসা করি।
মাইকেল চেরনিক

1
আমি "তবে আপনার সম্পাদনাগুলি করার কোনও আপত্তি নেই" - এর সাথে "তবে আপনি যদি অপেক্ষা করতে না পারেন" দিয়ে আমার মন্তব্যটি পরিবর্তন করতে যাচ্ছিলাম। আমি দেখছি আপনি কী করেছিলেন তা আরও নিচু এবং সহজ এবং সম্ভবত কম সময় নেয় তবে আমি এখনও তা শিখিনি এবং কিছু মডারেটর এবং অন্যান্য সদস্যরা যেভাবে করেন সেভাবে আমি এটিকে এত বড় চুক্তি হিসাবে দেখছি না।
মাইকেল চেরনিক

1
10,000

আপনাকে বিলম্বকারী ধন্যবাদ। আমি আজ সম্ভবত এই মোট পৌঁছানোর প্রত্যাশা ছিল।
মাইকেল চেরনিক

10

বুটস্ট্র্যাপিংয়ের মাধ্যমে আপনি পুরো জনসংখ্যার (প্রকৃত বিশ্বে আসলে কী রয়েছে) আপনার অনুমান কতটা সঠিক তা অনুমান করার জন্য একই গ্রুপের ডেটা (আপনার নমুনা ডেটা) থেকে বার বার নমুনা নিচ্ছেন।

যদি আপনি একটি নমুনা গ্রহণ করেন এবং প্রকৃত জনসংখ্যার উপর অনুমান করতে চান তবে আপনার অনুমানগুলি কতটা সঠিক তা আপনি অনুমান করতে সক্ষম হবেন না - আমাদের কেবল একটি অনুমান আছে এবং আমরা যে ভিন্ন ভিন্ন নমুনাগুলির মুখোমুখি হয়েছি তার সাথে এই অনুমান কীভাবে পরিবর্তিত হয় তা সনাক্ত করতে পারিনি।

বুটস্ট্র্যাপিং সহ, আমরা একাধিক নমুনা তৈরি করতে এই প্রধান নমুনাটি ব্যবহার করি। উদাহরণস্বরূপ, যদি আমরা 1000 দিনেরও বেশি দিন মুনাফাটি পরিমাপ করি তবে আমরা এই সেট থেকে এলোমেলো নমুনা নিতে পারি। আমরা একটি এলোমেলো দিন থেকে লাভ পেতে পারি, এটি রেকর্ড করতে পারি, অন্য এলোমেলো দিন থেকে লাভ (যা আগের দিন হতে পারে - প্রতিস্থাপনের সাথে নমুনা তৈরি করতে পারে), এটি রেকর্ড করুন এবং আরও অনেকক্ষণ, যতক্ষণ না আমরা একটি "নতুন" পাই 1000days এর নমুনা (মূল নমুনা থেকে)।

এই "নতুন" নমুনাটি মূল নমুনার মতো নয় - প্রকৃতপক্ষে আমরা উপরের মতো বেশ কয়েকটি "নতুন" নমুনা তৈরি করতে পারি। যখন আমরা উপায়গুলি এবং অনুমানের প্রকরণগুলি দেখি, তখন মূল অনুমানগুলি কতটা সঠিক ছিল সে সম্পর্কে আমরা একটি পাঠ পেতে সক্ষম হয়েছি।

সম্পাদনা - মন্তব্যের জবাবে

"নতুন" নমুনাগুলি প্রথমটির মতো নয় এবং এগুলির উপর ভিত্তি করে নতুন অনুমানগুলি পৃথক হবে। এটি জনসংখ্যার পুনরাবৃত্তি নমুনার অনুকরণ করে। বুটস্ট্র্যাপ দ্বারা উত্পাদিত "নতুন" নমুনাগুলির অনুমানের প্রকরণটি জনসংখ্যার বিভিন্ন নমুনা প্রদত্ত নমুনা অনুমান কীভাবে পরিবর্তিত হবে তা নিয়ে আলোকপাত করবে। এটি আসলে আমরা কীভাবে মূল অনুমানের নির্ভুলতা পরিমাপ করার চেষ্টা করতে পারি।

অবশ্যই, বুটস্ট্র্যাপিংয়ের পরিবর্তে আপনি জনসংখ্যার থেকে বেশ কয়েকটি নতুন নমুনা নিতে পারেন তবে এটি অপরিবর্তনীয়।


5
ধন্যবাদ! এই আমি অনেক বুঝতে। আমি বিশেষত ভাবছি যে এটি কীভাবে জনসংখ্যার নমুনা থেকে পুনর্নির্মাণের অন্তর্নিহিত জনসংখ্যা বুঝতে সহায়তা করে। যদি আমরা একটি নমুনা থেকে পুনরায় মডেলিং করছি, তবে কীভাবে আমরা কেবলমাত্র নমুনাটি না দিয়ে জনসংখ্যা সম্পর্কে কিছু শিখছি? সেখানে একটি লিপ বলে মনে হচ্ছে যা কিছুটা স্ব-স্বজ্ঞাত।
অ্যালান এইচ।

4

আমি বুঝতে পারি এটি একটি স্বীকৃত উত্তর সহ একটি পুরানো প্রশ্ন, তবে আমি বুটস্ট্র্যাপ পদ্ধতি সম্পর্কে আমার দৃষ্টিভঙ্গি সরবরাহ করতে চাই। আমি কোনও উপায়েই কোনও বিশেষজ্ঞ (পরিসংখ্যান ব্যবহারকারী হিসাবে বেশি, ওপি হিসাবে) এবং কোনও সংশোধন বা মন্তব্যকে স্বাগত জানাই না।

এসআমিটি(এসআমি)

পরিবর্তে আপনি 98 টি আকারের সমস্ত উপগ্রহ বিবেচনা করতে পারেন এবং জে কে -2 (2 উপাদান মোছা) বা জে কে -3 ইত্যাদি পেতে পারেন

এখন, বুটস্ট্র্যাপ এটির একটি এলোমেলো সংস্করণ। প্রতিস্থাপনের সাথে বাছাইয়ের মাধ্যমে পুনরায় মডেলিংয়ের মাধ্যমে আপনি এলোমেলো সংখ্যক উপাদান (সম্ভবত কোনও নয়) মুছে ফেলবেন এবং তাদের এক (বা আরও) প্রতিলিপি দ্বারা "প্রতিস্থাপন" করবেন।

প্রতিলিপিগুলির সাথে প্রতিস্থাপন করে পুনরায় সজ্জিত ডেটাসেট সবসময় একই আকার থাকে। জ্যাকনিফের জন্য আপনি 100 এর পরিবর্তে 99 মাপের নমুনায় জ্যাকনিফিংয়ের কী প্রভাব ফেলতে পারেন তা জিজ্ঞাসা করতে পারেন, তবে যদি নমুনা আকারটি "যথেষ্ট পরিমাণে বড়" হয় তবে এটি সম্ভবত একটি নন-ইস্যু।

জ্যাকনিফটিতে আপনি কখনও মুছুন -১ এবং মোছা -২ ইত্যাদি মিশ্রিত করবেন না, তা নিশ্চিত করার জন্য যে জ্যাকড অনুমানগুলি একই আকারের নমুনাগুলির থেকে।

আপনি 100 মাপের নমুনাকে 10 মাপের 10 টি নমুনায় বিভক্ত করার বিষয়টিও বিবেচনা করতে পারেন এটি কিছু তাত্ত্বিক দিকগুলিতে ক্লিনার (স্বতন্ত্র উপগ্রহ) হতে পারে তবে নমুনার আকারকে হ্রাস করে (100 থেকে 10) যাতে অবৈধ হতে পারে (বেশিরভাগ ক্ষেত্রে) মামলা)।

আপনি নির্দিষ্ট আকারের আংশিক ওভারল্যাপিং সাবসেটগুলিও বিবেচনা করতে পারেন। এই সমস্ত বুটস্ট্র্যাপ পদ্ধতি দ্বারা স্বয়ংক্রিয় এবং অভিন্ন এবং এলোমেলোভাবে পরিচালনা করা হয়।

তদ্ব্যতীত, বুটস্ট্র্যাপ পদ্ধতিটি আপনার মূল পরিসংখ্যানের অভিজ্ঞতাগত বিতরণ থেকে আপনার পরিসংখ্যানের নমুনা বিতরণের একটি প্রাক্কলন দেয়, যাতে আপনি স্ট্যান্ডস্টিকের ত্রুটি ছাড়াও আরও বৈশিষ্ট্য বিশ্লেষণ করতে পারেন।


1

প্যারাফ্রেসিং ফক্স , আমি এই বলে শুরু করব যে আপনার পর্যবেক্ষণকৃত নমুনাটি থেকে বারবার পুনর্নির্মাণের প্রক্রিয়াটি পুরো জনসংখ্যার থেকে মূল নমুনার প্রক্রিয়াটির নকল করতে দেখানো হয়েছে।


উপরের লিঙ্কটি বিচ্ছিন্ন হয়ে গেছে তাই ফক্স কী বলেছিল তা আমি জানি না। তবে বুটস্ট্র্যাপিং ত্রুটি তৈরি করে এমন আমার উদ্বেগের কোনও ঠিকানাই নয়। ধরুন আপনি পৃথিবীতে ভাষার আপেক্ষিক ফ্রিকোয়েন্সি সম্পর্কে জানতে চেয়েছিলেন। আপনি যদি ইন্টারনেট থেকে আপনার নমুনা নেন এবং কেবল সেই নমুনাটি পুনরায় তৈরি করেন, আপনি নেট থেকে সমস্ত ভাষা মিস করবেন।
অ্যাকাগ্রামলিন

1

জনসংখ্যার একটি সীমাবদ্ধ নমুনা হিস্টোগ্রামের সাথে এটির প্রায় একইভাবে বন্টনকে প্রায় সমান করে দেয়। পুনরায় স্যাম্পলিংয়ের মাধ্যমে প্রতিটি বিন গণনা পরিবর্তন করা হয় এবং আপনি একটি নতুন অনুমান পেতে পারেন। বৃহত গণনা মানগুলি মূল জনসংখ্যায় এবং নমুনাযুক্ত সেটগুলিতে ছোট গণনার মানগুলি কম ওঠানামা করে। যেহেতু আপনি এটি একটি ল্যাপারসনের কাছে ব্যাখ্যা করছেন, আপনি যুক্তি দিতে পারেন যে বড় বিন গণনের জন্য এটি উভয় ক্ষেত্রেই বিন গণনার প্রায় মূল বর্গমূল ।

2080100(0.2×0.8)×1001:4

আমি মনে করি যে এটি চাপ দেওয়া জরুরী যে বুটস্ট্র্যাপটি "নতুন" ডেটা উদ্ঘাটিত করে না, এটি নমুনাযুক্ত যদি প্রকৃত সম্ভাবনাটি দেয় তবে নমুনা ওঠানামায় নমুনা নির্ধারণ করার জন্য এটি প্রায় একটি সুবিধাজনক, অ প্যারাম্যাট্রিক উপায় ।


আমি আপনার উত্তরে সামান্য ফর্ম্যাটিং পরিবর্তন করেছি - আপনি যদি অনুপযোগী হন তবে এগুলি ফিরিয়ে দিতে নির্দ্বিধায়। বর্গমূল কেন সেখানে আরও কিছু স্পষ্টতার প্রয়োজন হতে পারে?
টিম

1

নোট করুন যে ক্লাসিক আনুপাতিক পরিসংখ্যানগুলিতে জনসংখ্যার একটি ভাল অনুমানকারী হিসাবে একটি নমুনাকে জনসংখ্যার সাথে সংযুক্ত করে যে তাত্ত্বিক সত্তাটি হ'ল নমুনা বিতরণ (জনসংখ্যার মাধ্যমে আঁকা যেতে পারে এমন সমস্ত সম্ভাব্য নমুনা)। বুটস্ট্র্যাপ পদ্ধতিটি এক ধরণের নমুনা বিতরণ তৈরি করছে (একাধিক নমুনার উপর ভিত্তি করে একটি বিতরণ)। অবশ্যই, এটি সর্বাধিক সম্ভাবনা পদ্ধতি, তবে মৌলিক যুক্তিটি ক্লাসিক সাধারণ বিতরণ-ভিত্তিক পরিসংখ্যানের পিছনে প্রচলিত সম্ভাবনা তত্ত্বের চেয়ে আলাদা নয়।


0

আমার বক্তব্য খুব ছোট একটি।

বুটস্ট্র্যাপ কাজ করে কারণ এটি আমাদের গবেষণা কর্মসূচির মূল ভিত্তি নিরপেক্ষভাবে নিবিড়ভাবে ব্যবহার করে।

পরিসংখ্যান বা জীববিজ্ঞান বা সর্বাধিক তাত্ত্বিক বিজ্ঞানের ক্ষেত্রে আরও সুনির্দিষ্ট হওয়ার জন্য আমরা ব্যক্তিদের অধ্যয়ন করি, এভাবে নমুনা সংগ্রহ করি।

তবুও, এই জাতীয় নমুনাগুলি থেকে, আমরা ভবিষ্যতে বা বিভিন্ন নমুনায় আমাদের কাছে উপস্থাপন করে অন্যান্য ব্যক্তির উপর ভিত্তি করে সিদ্ধান্ত তৈরি করতে চাই।

বুটস্ট্র্যাপের সাহায্যে, আমাদের নমুনার স্বতন্ত্র উপাদানগুলিতে স্পষ্টভাবে আমাদের মডেলিংটি সন্ধান করে, আমরা আরও ভাল (কম অনুমান সহ, সাধারণত) অন্য ব্যক্তির জন্য অনুমান করতে এবং ভবিষ্যদ্বাণী করতে পারি।


1
এটি কাঁচা ডেটা দিয়ে শুরু হওয়া অন্য কোনও পরিসংখ্যান প্রক্রিয়া থেকে বুটস্ট্র্যাপকে পৃথক করে বলে মনে হচ্ছে না। সংক্ষিপ্ত পরিসংখ্যান বা বিন্যস্ত ফ্রিকোয়েন্সিগুলির উপর ভিত্তি করে প্রক্রিয়াগুলি থেকে কেবল তাদের পার্থক্য মনে হয়।
whuber

0

নতুনদের ব্যাখ্যা করার সময় আমার মনে হয় এটি একটি নির্দিষ্ট উদাহরণ নিতে সহায়তা করে ...

কল্পনা করুন যে আপনি কিছু জনগোষ্ঠীর 9 টি পরিমাপের এলোমেলো নমুনা পেয়েছেন। নমুনার গড়টি 60 is আমরা কী নিশ্চিত হতে পারি যে পুরো জনসংখ্যার গড়ও 60? স্পষ্টতই নয় কারণ ছোট নমুনাগুলি পরিবর্তিত হবে, সুতরাং 60 এর অনুমানটি ভুল হতে পারে। এর মতো কত নমুনা পরিবর্তিত হবে তা জানতে, আমরা কিছু পরীক্ষা চালাতে পারি - বুটস্ট্র্যাপিং নামক একটি পদ্ধতি ব্যবহার করে।

নমুনায় প্রথম সংখ্যাটি 74 এবং দ্বিতীয়টি 65, সুতরাং আসুন আমরা একটি নবম 74, এক নবম 65 এবং এর মধ্যে অনেকগুলি সমন্বিত একটি বড় "ভান" দেখি। এই জনসংখ্যার থেকে এলোমেলো নমুনা নেওয়ার সহজতম উপায় হ'ল নয়টির নমুনা থেকে এলোমেলোভাবে একটি সংখ্যা নেওয়া, তারপরে এটি প্রতিস্থাপন করুন যাতে আপনার আবার নয়টির আসল নমুনা থাকে এবং এলোমেলোভাবে অন্য একটি চয়ন করুন, এবং আপনার যতক্ষণ না অবধি 9. এর "পুনরায় নমুনা" যখন আমি এটি করেছিলাম, 74 মোটেও উপস্থিত হয়নি তবে অন্যান্য কয়েকটি সংখ্যক দু'বার উপস্থিত হয়েছিল এবং এর অর্থ 54.4 ছিল। (এটি http://woodm.myweb.port.ac.uk/SL/resample.xlsx এ স্প্রেডশিটে সেট আপ করা হয়েছে - স্ক্রিনের নীচে বুটস্ট্র্যাপ ট্যাবে ক্লিক করুন))

আমি যখন এই উপায়ে 1000 টি রেজাল্ট নিয়েছিলাম তখন তাদের উপায়গুলি 44 থেকে 80 এর মধ্যে পরিবর্তিত হয়েছিল, 48% থেকে 72 এর মধ্যে 95% ছিল Which যা বোঝায় যে 16-20 ইউনিট পর্যন্ত ত্রুটি রয়েছে ((০ এর ভান করা জনসংখ্যার চেয়ে 44 কম 16, জনসংখ্যার গড় অনুমান করতে 9 মাপের নমুনা ব্যবহার করে 80 টি উপরে 20 টি ইউনিট রয়েছে)। এবং আমরা 95% আত্মবিশ্বাসী হতে পারি যে ত্রুটিটি 12 বা তারও কম হবে। সুতরাং আমরা 95% আত্মবিশ্বাসী হতে পারি যে জনসংখ্যার অর্থ কোথাও 48 এবং 72 এর মধ্যে থাকবে।

এখানে অনেকগুলি অনুমান অনুমান করা হয়েছে, স্পষ্টতই এই ধারণাটি হ'ল নমুনা জনসংখ্যার একটি দরকারী চিত্র দেয় - অভিজ্ঞতাটি দেখায় যে এটি সাধারণত ভালভাবে কাজ করে তবে নমুনাটি যথেষ্ট বড় হয় (9 কিছুটা ছোট তবে এটি আরও সহজ করে তোলে) কী চলছে তা দেখুন)। Http://woodm.myweb.port.ac.uk/SL/resample.xlsx এ স্প্রেডশিট আপনাকে পৃথক প্রতিকার, 1000 প্লাস্টিকের প্লট হিস্টোগ্রাম, বৃহত্তর নমুনাগুলির সাথে পরীক্ষা করা ইত্যাদি দেখতে সক্ষম করে the নিবন্ধে আরও বিশদ ব্যাখ্যা রয়েছে এ https://arxiv.org/abs/1803.06214


এটি প্রাথমিক এবং সম্ভবত স্বজ্ঞাত তবে আমি মনে করি না যে এটি বুটস্ট্র্যাপের কারণে কাজ করে।
মাইকেল চেরনিক
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.