রিগ্রেশন মধ্যে সহগের আস্থার ব্যবধান অনুমান করতে বুটস্ট্র্যাপ ব্যবহারের দুটি উপায়


21

আমি আমার ডেটাতে রৈখিক মডেল প্রয়োগ করছি:

yi=β0+β1xi+ϵi,ϵiN(0,σ2).

আমি বুটস্ট্র্যাপ পদ্ধতিটি ব্যবহার করে সহগের ( , ) এর আত্মবিশ্বাসের ব্যবধান (সিআই) অনুমান করতে চাই । দুটি উপায় আছে যা আমি বুটস্ট্র্যাপ পদ্ধতি প্রয়োগ করতে পারি: β 1β0β1

  1. যুক্ত প্রতিক্রিয়া-ভবিষ্যদ্বাণী: এলোমেলোভাবে of এর জোড়া পুনরায় নমুনা করুন এবং প্রতিটি রানের ক্ষেত্রে রৈখিক প্রতিরোধের প্রয়োগ করুন। রান করার পরে , আমরা আনুমানিক সহগের সংগ্রহ । অবশেষে, এর সমাংশক গনা। আছি ^ β , = 1 , মি ^ β জেyiximβj^,j=1,...mβj^

  2. নমুনা ত্রুটি: প্রথম মূল পর্যবেক্ষিত ডেটার উপর রৈখিক রিগ্রেশনের আবেদন, এই মডেল থেকে আমরা প্রাপ্ত এবং ত্রুটি । এরপরে, এলোমেলোভাবে ত্রুটিটি পুনরায় নমুনা করুন এবং data এবং দিয়ে নতুন ডেটা গণনা করুন । আবার লিনিয়ার রিগ্রেশন প্রয়োগ করুন। রান করার পরে , আমরা আনুমানিক কোফিসিন্টস একটি সংগ্রহ পেয়েছি । অবশেষে, এর সমাংশক গনা।βo^ϵiϵiβo^yi=βo^xi+ϵimβj^,j=1,...,mβj^

আমার প্রশ্নগুলি হ'ল:

  • এই দুটি পদ্ধতি কীভাবে আলাদা?
  • কোন অনুমানের অধীনে এই দুটি পদ্ধতি একই ফল দিচ্ছে?

7
আমি ব্যক্তিগতভাবে হয় না হয় ডিফল্ট পদ্ধতির হিসাবে ব্যবহার করব তবে পরিবর্তে বেসিক বুটস্ট্র্যাপের আত্মবিশ্বাসের ব্যবধানের পরামর্শ দেব। দেখুন পি। Www.stat.cmu.edu/~cshalizi/402/lectures/08-bootstrap/lecture-08.pdf এর 8 টি। আমি বাইনারি লজিস্টিক মডেলের জন্য প্রচুর সিমুলেশন করছি এবং পারসেন্টাইল বা বিসিএ বুটস্ট্র্যাপ ব্যবহার না করে বেসিক বুটস্ট্র্যাপ ব্যবহার করে আরও ভাল আত্মবিশ্বাসের ব্যবধান কভারেজ দেখেছি।
ফ্র্যাঙ্ক হ্যারেল

1
@ ফ্র্যাঙ্কহারেল পরিষ্কার হতে পারে, "বেসিক" দ্বারা আপনি নন-প্যারাম্যাট্রিক বুটস্ট্র্যাপের কথা উল্লেখ করছেন?
ndoogan

3
(1) হ'ল বুটস্ট্র্যাপ পারসেন্টাইল ননপ্যারমেট্রিক আত্মবিশ্বাসের বিরতি, বেসিক বুটস্ট্র্যাপ নয়। মনে রাখবেন যে থেকে নমুনা দেওয়া হচ্ছে শর্তহীন বুটস্ট্র্যাপ, যা শর্তসাপেক্ষে বুটস্ট্র্যাপের চেয়ে বেশি অনুমান-মুক্ত যা রেসিডুয়ালগুলি পুনরায় দেয়। (x,y)
ফ্র্যাঙ্ক হ্যারেল

2
xboot.ci(my.boot, type="basic")R

2
হ্যাঁ, আপনি ক্লাস্টার বুটস্ট্র্যাপিং করতে পারেন। এটি আর rms validateএবং calibrateফাংশনগুলিতে প্রয়োগ করা হয় ।
ফ্রাঙ্ক হ্যারেল

উত্তর:


9

প্রতিক্রিয়া-ভবিষ্যদ্বাণীকারী জোড়গুলি যদি জনসংখ্যার থেকে এলোমেলো নমুনা দ্বারা প্রাপ্ত হয়, তবে কেস / র্যান্ডম-এক্স / আপনার প্রথম পুনঃনির্মাণ প্রকল্পটি ব্যবহার করা নিরাপদ। যদি ভবিষ্যদ্বাণীকারীদের জন্য নিয়ন্ত্রণ করা হয় বা ভবিষ্যদ্বাণীকারীদের মানগুলি পরীক্ষক দ্বারা নির্ধারণ করা হয়, আপনি অবশিষ্ট / মডেল-ভিত্তিক / স্থির-এক্স / আপনার দ্বিতীয় পুনরায় মডেলিং স্কিম ব্যবহার করতে পারেন।

কীভাবে দু'জনের মধ্যে পার্থক্য রয়েছে? আর ডেভিসন এবং কাউনেন অ্যাপ্লিকেশন সহ বুটস্ট্র্যাপের একটি ভূমিকা এই প্রশ্নের সাথে আলোচনার জন্য প্রাসঙ্গিক রয়েছে (পৃষ্ঠা 9 দেখুন)। জন ফক্সের এই পরিশিষ্টের আরকোডটিও দেখুন, বিশেষত র্যান্ডম-এক্স স্কিমের জন্য p.5 এ boot.huber এবং ফিক্সড-এক্স স্কিমের জন্য p.10-এ boot.huber.fixed ফাংশনগুলি। যদিও Shalizi দ্বারা বক্তৃতা নোট দুই স্কিম বিভিন্ন ডেটাসেট / সমস্যার প্রয়োগ করা হয়, ফক্স এর পরিশিষ্ট কিভাবে অল্প পার্থক্য দুই স্কিম প্রায়ই করতে পারে চিত্রিত করা।

দুজন কখন নিকট অভিন্ন ফলাফল দেবে বলে আশা করা যায়? একটি পরিস্থিতি হ'ল যখন রিগ্রেশন মডেলটি সঠিকভাবে নির্দিষ্ট করা হয়, উদাহরণস্বরূপ, কোনও আনমনডলড আনলাইনারিটি নেই এবং সাধারণ রেগ্রেশন অনুমানগুলি (যেমন, আইডির ত্রুটিগুলি, কোনও বিদেশি) সন্তুষ্ট হয় না। ফক্সের বইয়ের অধ্যায় 21 দেখুন(যাতে আর কোডের সাথে পূর্বোক্ত পরিশিষ্টগুলি অপ্রত্যক্ষভাবে অন্তর্গত) বিশেষত 598 পৃষ্ঠায় আলোচনা এবং 21.3 অনুশীলন করুন। "এলোমেলোভাবে বনাম ed এক্সেড রিগ্র্যাম্পিং ইন রিগ্রেশন" শিরোনাম। বই থেকে উদ্ধৃতি

By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based]
procedure implicitly assumes that the errors are identically distributed. If, for
example, the true errors have non-constant variance, then this property will not be  
reflected in the resampled residuals. Likewise, the unique impact of a high-leverage
outlier will be lost to the resampling.

আপনি সেই আলোচনা থেকেও শিখবেন যে ফিক্সড-এক্স বুটস্ট্র্যাপ কেন অন্তর্নিহিতভাবে ধরে নিয়েছে যে মডেলের কার্যকরী ফর্মটি সঠিক (যদিও ত্রুটি বিতরণের আকার সম্পর্কে কোনও ধারণা নেওয়া হয়নি)।

আরও দেখুন এই আলাপ 12 স্লাইড ডেরেক বেইন দ্বারা আয়ারল্যান্ডে actuaries সোসাইটি জন্য। "একই ফলাফল" কী বিবেচনা করা উচিত সে সম্পর্কেও এর একটি চিত্র রয়েছে:

The approach of re-sampling cases to generate pseudo data is the more usual form of   
bootstrapping. The approach is robust in that if an incorrect model is fitted an
appropriate measure of parameter meter uncertainty is still obtained. However re
sampling residuals is more efficient if the correct model has been fitted.

The graphs shows both approaches in estimating the variance of a 26 point data sample
mean and a 52 point sample mean. In the larger sample the two approaches are  
equivalent.
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.