বুটস্ট্র্যাপযুক্ত রিগ্রেশন opালগুলি কীভাবে তুলনা করব?


13

আসুন ধরে নিই যে আমার দুটি পৃথক পৃথক ভেরিয়েবল এক্স এবং নির্ভরশীল ভেরিয়েবল y এর ডেটা জোড়া এন পর্যবেক্ষণ সহ দুটি ডেটা সেট রয়েছে। আমাদের আরও ধরে নেওয়া যাক আমি পর্যবেক্ষণগুলি বুটস্ট্র্যাপ করে (প্রতিস্থাপনের সাথে) এন বার এবং রিগ্রেশন y = a + bx গণনা করে সেট করা প্রতিটি ডেটার জন্য রিগ্রেশন opালুগুলির বিতরণ উত্পন্ন করতে চাইপ্রতি বার. Opালগুলি উল্লেখযোগ্যভাবে আলাদা বলে বলার জন্য আমি কীভাবে দুটি বিতরণটির তুলনা করব? ডিস্ট্রিবিউশনগুলির মধ্যমদের মধ্যে পার্থক্যটি পরীক্ষা করার জন্য একটি ইউ-টেস্ট ভারীভাবে এন এর উপর নির্ভরশীল হবে, অর্থাৎ যতবার আমি বুটস্ট্র্যাপিংয়ের পুনরাবৃত্তি করি তত বেশি তাত্পর্যপূর্ণ হবে। একটি তাত্পর্যপূর্ণ পার্থক্য নির্ধারণ করতে কীভাবে আমার বিতরণগুলির মধ্যে ওভারল্যাপ গণনা করতে হবে?

উত্তর:


19

বৃহত নমুনা তত্ত্ব দ্বারা অনুমান করা হয় তার চেয়ে বেশি নমুনা বিতরণের আরও দৃ rob় চিত্র পেতে বুটস্ট্র্যাপিং করা হয় । আপনি যখন বুটস্ট্র্যাপ করেন, তখন আপনার নেওয়া `বুটসাম্পলগুলির সংখ্যাটির কার্যকরভাবে কোনও সীমা থাকে না; প্রকৃতপক্ষে আপনি যত বেশি বুটসামাল গ্রহণ করবেন স্যাম্পলিং বিতরণে আরও ভাল সান্নিধ্য পাবেন। বুটসাম্পলগুলি ব্যবহার করা সাধারণ , যদিও এই সংখ্যাটি সম্পর্কে যাদুকর কিছুই নেই। তদতিরিক্ত, আপনি বুটসাম্পলগুলিতে কোনও পরীক্ষা চালান না; নমুনা বিতরণ সম্পর্কে আপনার কাছে একটি অনুমান রয়েছে - এটি সরাসরি ব্যবহার করুন। এখানে একটি অ্যালগরিদম রয়েছে:B=10,000

  1. প্রতিস্থাপনের সাথে বুট-পর্যবেক্ষণ নমুনা তৈরি করে সেট করা একটি ডেটার একটি বুটসাম্পল নিন । [নীচের মন্তব্যগুলির বিষয়ে, একটি প্রাসঙ্গিক প্রশ্ন হ'ল আপনার বুটস্যাম্পলটির জন্য ব্যবহারের জন্য কোনও বৈধ 'বুট-পর্যবেক্ষণ' গঠন কী। আসলে, এখানে বেশ কয়েকটি বৈধ পন্থা রয়েছে; আমি শক্তিশালী দুটি উল্লেখ করব এবং আপনাকে আপনার ডেটার কাঠামোটি মিরর করার অনুমতি দেব: আপনার যখন পর্যবেক্ষণমূলক ডেটা থাকে (যেমন, ডেটাটি সমস্ত মাত্রায় নমুনাযুক্ত হয়েছিল), তখন একটি বুট-পর্যবেক্ষণ আদেশযুক্ত এন-টুপল হতে পারে (যেমন, একটি সারি) আপনার ডেটা সেট থেকে) উদাহরণস্বরূপ, যদি আপনার কাছে একটি ভবিষ্যদ্বাণীকারী ভেরিয়েবল এবং একটি প্রতিক্রিয়া ভেরিয়েবল থাকে তবে আপনি এন 1 ( x , y ) নমুনা দেবেনn1n1 (x,y)অর্ডার জোড়া। অন্যদিকে, পরীক্ষামূলক ডেটা নিয়ে কাজ করার সময়, ভবিষ্যদ্বাণীকারী ভেরিয়েবল মানগুলি নমুনাযুক্ত করা হয় নি, তবে পরীক্ষামূলক ইউনিটগুলিকে প্রতিটি পূর্বাভাসীর ভেরিয়েবলের উদ্দেশ্যে স্তরের জন্য বরাদ্দ করা হয়েছিল। এর মতো ক্ষেত্রে, আপনি আপনার পূর্বাভাসক ভেরিয়েবলের প্রতিটি স্তরের মধ্যে থেকে y মানগুলি নমুনা করতে পারেন , তারপরে সেই ওয়াই এসকে সেই পূর্বাভাসকারী স্তরের সাথে সম্পর্কিত মানের সাথে যুক্ত করুন। এই পদ্ধতিতে, আপনি এক্স এর চেয়ে বেশি নমুনা দেবেন না ]]n1j yjyX
  2. আপনার রিগ্রেশন মডেল মাপসই করা হবে এবং ঢাল হিসাব দোকান (কল এটা বিটা 1 )β^1
  3. প্রতিস্থাপনের সাথে বুট-পর্যবেক্ষণ স্যাম্পল করে সেট করা অন্যান্য ডেটার একটি বুটসাম্পল নিনn2
  4. অন্যান্য রিগ্রেশন মডেল মাপসই করা হবে এবং ঢাল হিসাব দোকান (কল এটা বিটা 2 )β^2
  5. দুই অনুমান থেকে একটি পরিসংখ্যাত ফর্ম (পরামর্শ: ঢাল পার্থক্য ব্যবহার β 1 - β 2 )β^1β^2
  6. পরিসংখ্যান সংরক্ষণ করুন এবং অন্যান্য তথ্য ডাম্প যাতে মেমরি নষ্ট না হয়
  7. পদক্ষেপগুলি 1 - 6, বার পুনরাবৃত্তি করুনB=10,000
  8. opeাল পার্থক্যের বুটস্ট্র্যাপযুক্ত নমুনা বিতরণকে সাজান
  9. বিএসডি-র যে% কে ওভারল্যাপ করে তার% গুন করুন (যেটি ছোট, ডান লেজ% বা বাম লেজ%%)
  10. এই শতাংশকে 2 দ্বারা গুণান

পরিসংখ্যানগত পরীক্ষা হিসাবে এই অ্যালগরিদমের যুক্তিটি মূলত শাস্ত্রীয় পরীক্ষার (যেমন, টি-টেস্ট) অনুরূপ তবে আপনি ডেটা ধরে নিচ্ছেন না বা ফলস্বরূপ নমুনা বিতরণগুলির কোনও নির্দিষ্ট বন্টন রয়েছে। (উদাহরণস্বরূপ, আপনি স্বাভাবিকতা ধরে নিচ্ছেন না)) আপনি যে প্রাথমিক অনুমান করছেন তা হ'ল আপনার ডেটা এমন জনসংখ্যার প্রতিনিধি যা আপনি নমুনা করেছেন / যেখানে সাধারণ করতে চান। যে, নমুনা বিতরণ জনসংখ্যা বিতরণের অনুরূপ। মনে রাখবেন, আপনার ডেটা যদি আপনার আগ্রহী জনসংখ্যার সাথে সম্পর্কিত না হয় তবে আপনি ভাগ্য থেকে দূরে।

কিছু লোক ব্যবহারের বিষয়ে উদ্বিগ্ন, যেমন, normalাল নির্ধারণ করার জন্য একটি রিগ্রেশন মডেল আপনি যদি স্বাভাবিকতা নিতে চান না তবে। তবে এই উদ্বেগটি ভুল mist গাউস-মার্কভ উপপাদ্যটি আমাদের বলেছে যে অনুমানটি নিরপেক্ষ (যেমন, সত্যের মূল্যের উপর ভিত্তি করে), তাই এটি ঠিক আছে। স্বাভাবিকতার অভাবের সহজ অর্থ হ'ল সত্য নমুনা বিতরণ তাত্ত্বিকভাবে পোস্ট করা থেকে পৃথক হতে পারে এবং তাই পি-মানগুলি অবৈধ। বুটস্ট্র্যাপিং পদ্ধতি আপনাকে এই সমস্যাটি মোকাবেলার জন্য একটি উপায় দেয়।

বুটস্ট্র্যাপিং সম্পর্কিত আরও দুটি বিষয়: শাস্ত্রীয় অনুমানগুলি পূরণ করা হলে বুটস্ট্র্যাপিং প্যারামিমেট্রিক পরীক্ষার চেয়ে কম দক্ষ (অর্থাত্ শক্তি কম) is দ্বিতীয়ত, আপনি যখন কোনও বিতরণের কেন্দ্রে কাছাকাছি ঘুরে দেখছেন তখন বুটস্ট্র্যাপিং সবচেয়ে ভাল কাজ করে: মানে এবং মিডিয়ানরা ভাল, কোয়ার্টাইলগুলি খুব ভাল নয়, মিনিটের বুটস্ট্র্যাপিং বা সর্বোচ্চটি ব্যর্থ হয়। প্রথম বিষয়টির বিষয়ে, আপনার নিজের পরিস্থিতিতে বুটস্ট্র্যাপের প্রয়োজন হবে না; দ্বিতীয় বিষয়টি সম্পর্কে, opeালের বুটস্ট্র্যাপিং পুরোপুরি ঠিক আছে।


যদিও আমি ভাল হতে পারি, আমি ভেবেছিলাম যে রিগ্রেশন-এ বুটস্ট্র্যাপটি কাঁচা ডেটার পরিবর্তে রেসিডুয়ালে থাকতে হবে, যাচাই করা উচিত ...
শিয়ান

@ শিয়ান, আমি নিজের আগে ভুল হয়েছি, তবে আপনি কেন বুটস্ট্র্যাপিংয়ের অবশিষ্টাংশকে বৈধ বলে মনে করেন তা আমি বুঝতে পারি না। ইফ্রন এবং তিবশিরানী (1994) বিভাগ 9.5 বলছে "বুটস্ট্র্যাপিং জোড়গুলি বুটস্ট্র্যাপিং অবশিষ্টাংশের চেয়ে অনুমানের প্রতি কম সংবেদনশীল। বুটস্ট্র্যাপিং জোড়গুলি দ্বারা প্রাপ্ত স্ট্যান্ডার্ড ত্রুটি যুক্তিযুক্ত উত্তর দেয় এমনকি যদি [লিনিয়ার মডেলের সম্ভাব্য কাঠামো] সম্পূর্ণ ভুল হয়।" বোঝা যাচ্ছে যে বুটস্ট্র্যাপের প্রয়োগটি আরও দৃ rob়, যদিও তারা বোঝায় যে এটি কিছু ক্ষেত্রে কম দক্ষ হতে পারে।
গুং - মনিকা পুনরায়

জোড়গুলির বুটস্ট্র্যাপিংয়ের সাথে আমার উদ্বেগটি হ'ল আপনি ভবিষ্যদ্বাণীকারীদের বিতরণও অন্তর্ভুক্ত করেন যা সাধারণত নিয়মিত রৈখিক মডেলগুলিতে ছবির বাইরে থাকে। এ কারণেই আমি আমার ছাত্রদের সর্বদা কেবল অবশিষ্টাংশগুলি বুটস্ট্র্যাপ করতে শিখি।
শি'য়ান

@ শিয়ান, এটি একটি যুক্তিসঙ্গত বিষয়, আমি মনে করি আমি একটি পর্যবেক্ষণমূলক ডেটা কাঠামো ধরে নিচ্ছি। এই উদ্বেগগুলি সম্পর্কে আরও বিশদ যুক্ত করতে আমি আমার উত্তর সম্পাদনা করেছি। যাইহোক, আমি দেখতে পাচ্ছি না যে এটি বোঝায় যে বুটস্ট্র্যাপিং জোড়গুলি অবশ্যই অবৈধ।
গুং - মনিকা পুনরায়

দুটি স্বতন্ত্র সেট ডেটার মধ্যে জুড়ি জোর করা কৃত্রিম এবং অদক্ষ। আপনি যে তুলনায় অনেক ভাল করতে পারেন!
শুক্র

4

si

yi=β0+β1xi+β2si+β3sixi+ϵi
β3
E[yix,si=1]=(β0+β2)+(β1+β3)xiE[yix,si=0]=β0+β1xi.
β3nn2n

ত্রুটির শর্তগুলির মধ্যে যদি আপনার সম্পর্ক থাকে তবে আপনার এই পদ্ধতিটি কিছুটা পরিবর্তন করতে হতে পারে, তাই যদি এটি হয় তবে ফিরে লিখুন।

আপাতদৃষ্টিতে সম্পর্কিত নয় এমন রিগ্রেশন (SUR) কাঠামোর কাছে আপনি এই পদ্ধতির সাধারণকরণ করতে পারেন। এই পদ্ধতির ফলে ইন্টারসেপ্ট এবং slাল দুটি সংযোজনীয়ভাবে দুটি ডেটা সেটগুলিতে পৃথক হয়ে যায় for


1
এটা একটা ভালো ধারণা. তবে এগুলিও দুটি ধারনার আইড ত্রুটি আছে বলে ধরে নেওয়া যায় না?
whuber

1
ভাল যুক্তি. এটির প্রয়োজন আছে যে গোষ্ঠী অনুসারে ত্রুটির জন্য পৃথক বৈকল্পিক না ঘটে এবং ত্রুটিগুলি বিভিন্ন গ্রুপে পরস্পর সম্পর্কযুক্ত না হয়।
চার্লি

0

এক রিগ্রেশনে সবকিছু করা ঝরঝরে, এবং স্বাধীনতার অনুমিতি গুরুত্বপূর্ণ। তবে বিন্দু অনুমানটি এইভাবে গণনা করার জন্য ধ্রুব বৈকল্পের প্রয়োজন হয় না । এই আর কোড ব্যবহার করে দেখুন;

x <- rbinom(100, 1, 0.5)
z <- rnorm(100)
y <- rnorm(100)
coef(lm(y~x*z))
coef(lm(y~z, subset= x==1))[1] - coef(lm(y~z, subset= x==0))[1]
coef(lm(y~z, subset= x==1))[2] - coef(lm(y~z, subset= x==0))[2]

আমরা যেভাবেই একই পয়েন্টের অনুমান পাই। স্ট্যান্ডার্ড ত্রুটির প্রাক্কলনগুলির জন্য ধ্রুব বৈকল্পের প্রয়োজন হতে পারে (আপনি কোনটি ব্যবহার করেন তার উপর নির্ভর করে) তবে এখানে বিবেচিত বুটস্ট্র্যাপিং আনুমানিক স্ট্যান্ডার্ড ত্রুটিগুলি ব্যবহার করে না।


1
যদি আপনি পরীক্ষা করতে যাচ্ছেন যে slালুগুলির পার্থক্য শূন্য কিনা (@ চার্লির জবাব অনুসারে, যা আপনি অনুসরণ করছেন বলে মনে হচ্ছে), আপনার স্ট্যান্ডার্ড ত্রুটির একটি সঠিক, বৈধ অনুমানের প্রয়োজন। আপনি সেই অনুমানটি বুটস্ট্র্যাপ করুন বা অন্যথায় এটি বিবেচনা করে না।
whuber
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.