লিনিয়ার রিগ্রেশন মধ্যে বাইনারি / ডিকোটমাস স্বাধীন প্রেডিক্টরদের জন্য কীভাবে অবশিষ্ট বিশ্লেষণ করবেন?


11

পরিচালিত তহবিলের রিটার্নের পূর্বাভাস দিতে আমি নীচে একাধিক লিনিয়ার রিগ্রেশন করছি।

reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata)

এখানে কেবল জিআরআই এবং এমবিএই বাইনারি / ডিকোটমাস প্রেডিক্টর; বাকী ভবিষ্যদ্বাণীকারী অবিচ্ছিন্ন।

বাইনারি ভেরিয়েবলের জন্য অবশিষ্ট প্লট তৈরি করতে আমি এই কোডটি ব্যবহার করছি।

plot(rawdata$GRI, reg$residuals)
abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) 

plot(rawdata$MBA, reg$residuals)
abline(lm(reg$residuals~rawdata$MBA, data=rawdata), col="red") # regression line (y~x) 

আমার প্রশ্ন: আমি জানি ধারাবাহিক ভবিষ্যদ্বাণীকারীদের জন্য কীভাবে অবশিষ্ট প্লটগুলি পরিদর্শন করা যায় তবে একটি স্বাধীন ভেরিয়েবল বাইনারি হওয়ার সময় আপনি সমকামিতা যেমন লিনিয়ার রিগ্রেশন অনুমানকে কীভাবে পরীক্ষা করেন?

অবশিষ্ট প্লট:

জিআর 1 এর জন্য অবশিষ্ট প্লট এমবিএর জন্য অবশিষ্ট প্লট

উত্তর:


8

আপনার নিকট দুটি গ্রুপ থাকাকালে অবশিষ্টাংশের প্রদর্শনগুলির বিষয়ে কথা বলার জন্য নিককক্স একটি ভাল কাজ করেছেন। আমাকে এই সুতার পিছনে থাকা কিছু স্পষ্ট প্রশ্ন এবং অন্তর্নিহিত অনুমানগুলি সম্বোধন করতে দিন।

প্রশ্নটি জিজ্ঞাসা করে, "স্বতন্ত্র ভেরিয়েবল বাইনারি হওয়ার সময় আপনি সমকামিতা যেমন লিনিয়ার রিগ্রেশন সম্পর্কিত অনুমানগুলি কীভাবে পরীক্ষা করেন?" আপনার একাধিক রিগ্রেশন মডেল রয়েছে। একটি (একাধিক) রিগ্রেশন মডেল ধরে নেয় কেবলমাত্র একটি ত্রুটি শব্দ রয়েছে, যা সর্বত্র স্থির থাকে। প্রতিটি ভবিষ্যদ্বাণীকের পৃথকভাবে পৃথকভাবে পরীক্ষা করার জন্য এটি মারাত্মক অর্থবহ নয় (এবং আপনার কাছে নেই)। এ কারণেই, যখন আমাদের একাধিক রিগ্রেশন মডেল থাকে, তখন আমরা পূর্বাভাসিত মানগুলি বনামের প্লটগুলি থেকে হেটেরোসেসডাস্টিকটি নির্ণয় করি। সম্ভবত এই উদ্দেশ্যে সর্বাধিক সহায়ক প্লট হ'ল একটি স্কেল-লোকেশন প্লট (এটি 'স্প্রেড-লেভেল' নামেও পরিচিত), যা পূর্বাভাসিত মানগুলির অবশিষ্টাংশগুলির পরম মানের বর্গমূলের একটি প্লট। উদাহরণগুলি দেখতে, কি না থাকার নেই "ধ্রুবক ভ্যারিয়েন্স" একটি রৈখিক রিগ্রেশনের মডেল গড় মধ্যে?

তেমনি, স্বাভাবিকতার জন্য আপনাকে প্রতিটি পূর্বাভাসীর অবশিষ্টাংশগুলি পরীক্ষা করতে হবে না। (আমি সত্যই জানি না যে কীভাবে এটি কার্যকর হবে))

পৃথক ভবিষ্যদ্বাণীকারীদের বিরুদ্ধে প্লট অবশিষ্টাংশের সাথে আপনি কী করতে পারেন তা কার্যকারিতাটি সঠিকভাবে নির্দিষ্ট করা হয়েছে কিনা তা পরীক্ষা করে দেখুন। উদাহরণস্বরূপ, যদি অবশিষ্টাংশগুলি প্যারাবোলা গঠন করে তবে ডেটাতে কিছু বক্রতা থাকে যা আপনি মিস করেছেন। একটি উদাহরণ দেখতে, এখানে @ গ্লেন_ বি এর উত্তরটির দ্বিতীয় প্লটটি দেখুন: লিনিয়ার রিগ্রেশনে মডেলের গুণমান পরীক্ষা করা । তবে, এই সমস্যাগুলি বাইনারি ভবিষ্যদ্বাণী নিয়ে প্রযোজ্য নয়।

এটির জন্য মূল্যবান, যদি আপনার কাছে কেবল শ্রেণিবদ্ধ ভবিষ্যদ্বাণী থাকে তবে আপনি ভিন্নজাতীয়তার জন্য পরীক্ষা করতে পারেন। আপনি কেবল লেভেনের পরীক্ষাটি ব্যবহার করেন। আমি এখানে এটি নিয়ে আলোচনা করছি: কেন লে রেভেনের এফ রেশির চেয়ে বৈকল্পের সমতার পরীক্ষা? আর-এ আপনি গাড়ী প্যাকেজ থেকে leveneTest ব্যবহার করছেন ?


সম্পাদনা করুন: একটি নির্দিষ্ট প্রেডিক্টর ভেরিয়েবল বনাম অবশিষ্টাংশের প্লটটির দিকে তাকানো যখন আপনার একাধিক রিগ্রেশন মডেল রয়েছে তখন এই উদাহরণটি আরও ভালভাবে বোঝাতে: এই উদাহরণটি বিবেচনা করুন:

set.seed(8603)                       # this makes the example exactly reproducible
x1 = sort(runif(48, min=0, max=50))  # here is the (continuous) x1 variable
x2 = rep(c(1,0,0,1), each=12)        # here is the (dichotomous) x2 variable
y  = 5 + 1*x1 + 2*x2 + rnorm(48)     # the true data generating process, there is 
                                     #   no heteroscedasticity

mod = lm(y~x1+x2)                    # this fits the model

আপনি ডেটা উত্পন্নকরণ প্রক্রিয়া থেকে দেখতে পাচ্ছেন যে কোনও ভিন্ন ভিন্নতা নেই ced মডেলটির প্রাসঙ্গিক প্লটগুলি পরীক্ষা করে দেখি তারা সমস্যাযুক্ত হিটারোসিসেস্টাস্টিটি বোঝায় কিনা:

এখানে চিত্র বর্ণনা লিখুন

না, চিন্তার কিছু নেই। যাইহোক, আসুন বনামের অবশিষ্টাংশের প্লটটি দেখে নেওয়া যাক পৃথক বাইনারি প্রেডিকটার ভেরিয়েবলটি দেখতে দেখতে এটির মতো ভিন্নধর্মী আছে কিনা তা দেখতে দেখতে:

এখানে চিত্র বর্ণনা লিখুন

ওহ, দেখে মনে হচ্ছে কোনও সমস্যা হতে পারে। আমরা ডেটা উত্পন্নকরণ প্রক্রিয়া থেকে জানি যে কোনও ভিন্ন ভিন্ন উপায়ে নেই, এবং এটি অন্বেষণের প্রাথমিক প্লটগুলি কোনওটিই দেখায় নি, তাই এখানে কী হচ্ছে? সম্ভবত এই প্লটগুলি সাহায্য করবে:

এখানে চিত্র বর্ণনা লিখুন

x1এবং x2একে অপরের থেকে স্বতন্ত্র নয়। তদুপরি, পর্যবেক্ষণগুলি x2 = 1চূড়ান্ত হয়। তাদের আরও বেশি লাভ রয়েছে, তাই তাদের অবশিষ্টাংশগুলি প্রাকৃতিকভাবেই ছোট। তা সত্ত্বেও, এখানে কোনও বৈপরীত্য নেই।

বাড়ির বার্তাটি নিন: আপনার সেরা বেটটি হ'ল যথাযথ প্লটগুলি (অবশিষ্টাংশ বনাম লাগানো প্লট এবং স্প্রেড-লেভেল প্লট) থেকে ভিন্ন ভিন্নতা নির্ণয় করা।


ধন্যবাদ! একই প্রতিরোধের জন্য আমি করছিলাম যে আমি খুঁজে পেয়েছিলাম যে রেসিডুয়াল বনাম ওয়াই সমকামী, কিন্তু যখন আমি রেসিডুয়াল ভার্সেস সময়কাল (স্বতন্ত্র) পরীক্ষা করেছিলাম এটি একটি ফানেলের আকার ছিল। সুতরাং এই অধিকারটি সংশোধন করার জন্য আমার কিছু রূপান্তর করা দরকার? তারপরে এই প্রসঙ্গে কেবল আপনি বুঝতে চেয়েছিলেন যে কেন আপনি উল্লেখ করেছেন যে অবশিষ্টাংশ বনাম স্বতন্ত্র ভেরিয়েবলটি পরীক্ষা করা প্রয়োজনীয় নয়?
জর্জিফএফআরএফ

@ mrcet007, আপনার কোনও রূপান্তর দরকার নেই। যদি রেস বনাম লাগানো কোনও ভিন্ন ভিন্ন বৈশিষ্ট্য না দেখায়, আপনি ঠিক আছেন। সম্ভবত একটি চিত্র আপনাকে সাহায্য করবে। একটি বিক্ষোভ যোগ করতে আমি আমার উত্তর সম্পাদনা করেছি।
গুং - মনিকা পুনরায়

আপনি এই লিঙ্কটি চেক করতে পারেন people.duke.edu/~rnau/testing.htm । এটি বলেছে রেসিডুয়াল বনাম স্বতন্ত্র পরিবর্তনশীলও। কেবল আলোচনার জন্য ভাগ করে নেওয়া। আপনি এই সম্পর্কে মন্তব্য করতে পারেন? আমি যা ভাবছিলাম তা হ'ল আমাদের সর্বদা পূর্বাভাসের পাশাপাশি অবশিষ্ট বনাম স্বতন্ত্র উভয়ই পরীক্ষা করা উচিত। হোমোসেসডেস্টিটিটি (ক্রমাগত বৈকল্পিক) ত্রুটিগুলির (ক) সময় বনাম (টাইম সিরিজের ডেটাগুলির ক্ষেত্রে) (খ) বনাম পূর্বাভাসগুলি (গ) বনাম কোনও স্বতন্ত্র ভেরিয়েবল
জর্জফফ আরআরএফ

আমার মন্তব্য হ'ল যে আপনি ভিন্নতা সংক্রান্ত বনাম পূর্বাভাস প্রাপ্ত গ্রাফগুলিকে ভিন্ন ভিন্নতা পরীক্ষা করার জন্য উভয় কারণের জন্য কেন একটি কারণ সরবরাহ করেছেন এবং চতুর্থ গ্রাফের রেসিচুয়ালগুলি কীভাবে আপনাকে পথভ্রষ্ট করতে পারে তার একটি উদাহরণ দেখিয়েছি। আর কী বলার আছে জানি না।
গুং - মনিকা পুনরায়

6

এটি সত্য যে প্রচলিত অবশেষ প্লটগুলি এক্ষেত্রে কঠোর পরিশ্রম: বিতরণগুলি প্রায় একই রকম কিনা তা দেখতে (আরও অনেক বেশি) সমস্যা হতে পারে। তবে এখানে সহজ বিকল্প রয়েছে। আপনি কেবল দুটি বিতরণ তুলনা করছেন, এবং এটি করার অনেকগুলি ভাল উপায় রয়েছে। কিছু সম্ভাবনাগুলি পাশাপাশি রয়েছে বা সুপারম্পোজড কোয়ান্টাইল প্লট, হিস্টোগ্রাম বা বাক্স প্লট। আমার নিজস্ব কুসংস্কারটি হ'ল অযাচিত বাক্স প্লটগুলি এখানে প্রায়শই ব্যবহৃত হয়: তারা সাধারণত আমাদের যে বিবরণটি দেখতে চাইবে তা দমন করবে, এমনকি যদি আমরা প্রায়শই তা গুরুত্বহীন হিসাবে খারিজ করতে পারি। তবে আপনি আপনার কেক খেতে পারেন এবং এটি রাখতে পারেন।

আপনি আর ব্যবহার করেন তবে আপনার প্রশ্নের কোনও পরিসংখ্যানই আর-নির্দিষ্ট নয়। এখানে আমি একা বাইনারি প্রেডিক্টরের প্রতিরোধের জন্য স্টাটা ব্যবহার করেছি এবং তারপরে ভবিষ্যদ্বাণীকারীর দুটি স্তরের অবশিষ্টাংশের সাথে তুলনা করে কোয়ান্টাইল বক্স প্লটগুলি নষ্ট করেছি। এই উদাহরণে ব্যবহারিক উপসংহারটি হ'ল বিতরণগুলি প্রায় একই রকম।

এখানে চিত্র বর্ণনা লিখুন

1/43/4

দ্রষ্টব্য: চূড়ান্ত আউটলেটারের সাথে কীভাবে বক্স প্লট উপস্থাপন করবেন তা দেখুন ? @ গ্লেন_ বি এর অনুরূপ প্লটের উদাহরণ সহ আর ব্যবহার করুন Such যদি না হয় তবে আপনার সফ্টওয়্যারটি শালীন নয়।


+1 সুন্দর। আপনি কি অনুভব করেন যে এখানেও অবশিষ্টাংশগুলিতে অনুমানের পরীক্ষার জন্য ভূমিকা আছে?
অ্যালেক্সিস

@ গুং আমি আপনার সম্পাদনা সম্পাদনা করেছি। আপনি যদি ভুল বোঝেন তবে মূলটি স্পষ্টতই পরিষ্কার ছিল না was
নিক কক্স

2
@ অ্যালেক্সিস ধন্যবাদ! এই ক্ষেত্রে গ্রাফ দ্বারা সমান স্ক্যাটারের একটি অনুমানকে অনানুষ্ঠানিকভাবে সমর্থন করা এই ধারণার সাথে আমি সন্তুষ্ট। আমি ভাবা বিদ্যালয়ের নই যে বিশ্লেষণের প্রতিটি ছোট পদক্ষেপকে একটি পি-মান দ্বারা পবিত্র করা দরকার। দুর্ভাগ্যক্রমে, এটি নিশ্চিত হওয়া সহজ নয় যে আপনি সঠিক উপায়ে ঝাঁপিয়ে পড়েছেন, তবে আমার সন্দেহ থাকলে আমি বাস্তবে অন্যান্য মডেলগুলিকেও বিনোদন দেব। এখানে উদাহরণটি কেবল প্রশ্নের জন্য তৈরি করা হয়েছে এবং কোনও গুরুতর বিশ্লেষণের অংশ নয়।
নিক কক্স

আমার ক্ষমা, নিক। আমি এই বাক্যাংশের বিন্দুটি ভুল বুঝেছি। আমি ভেবেছিলাম এটি একটি টাইপো ছিল। এটা এখন পরিষ্কার।
গুং - মনিকা পুনরায়

1
@ ভুবার আমার দ্বারা ভাল। কিছু লোক এগুলি বিভ্রান্তিকর বলে মনে হয়, বা তাই আমাকে বলা হয়।
নিক কক্স
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.