নির্ভরশীল ভেরিয়েবলগুলির পরিবর্তনের জন্য কেন আমরা ব্যবহার করতে পারি না ?


10

কল্পনা করুন আমাদের উপর নির্ভরশীল ভেরিয়েবল সহ লিনিয়ার রিগ্রেশন মডেল রয়েছে । আমরা এর । এখন, আমরা অন্য রিগ্রেশন কিন্তু এই সময় , এবং একইভাবে তার এটি । আমাকে বলা হয়েছে যে কোন মডেলটি আরও উপযুক্ত see তা দেখতে আমি আর ^ 2 উভয়ের তুলনা করতে পারি না । কেন এমন? আমাকে দেওয়া কারণটি হ'ল আমরা বিভিন্ন পরিমাণের (বিভিন্ন নির্ভরশীল ভেরিয়েবল) এর পরিবর্তনশীলতার সাথে তুলনা করব। আমি নিশ্চিত নই যে এটির জন্য এটি পর্যাপ্ত কারণ হওয়া উচিত।yRy2log(y)Rlog(y)2R2

এটিকে আনুষ্ঠানিক করার কোনও উপায় আছে কি?

কোন সাহায্য প্রশংসা করা হবে।


1
আমার সন্দেহ হয় ক্রস ভ্যালিটেটেডের আগে এটি নিয়ে আলোচনা করা হতে পারে। আপনি কি একইভাবে থ্রেডগুলি ভালভাবে গেছেন? এছাড়াও, আপনি কি বিভিন্ন নির্ভরশীল ভেরিয়েবলগুলি (যেমন জিডিপি বনাম তেলের দাম) বা একই ভেরিয়েবলের (জিডিপি বনাম জিডিপি বৃদ্ধি) ট্রান্সফরমেশন বা উভয় সম্পর্কে যত্নবান?
রিচার্ড হার্ডি

@ রিচার্ড হার্ডি আমি কিছু খুঁজে পেয়েছি, তবে আমি মনে করি তারা আমার প্রশ্নের স্পর্শকাতর ছিল। এটির মতো: stats.stackexchange.com/questions/235117/… উত্তরে ঠিক হ্যাঁ বলা হয়েছে, কেন সত্য তা ব্যাখ্যা করে না।
সমুদ্রের এক বৃদ্ধ।

@ রিচার্ড হার্ডি আমি নির্ভরশীল ভেরিয়েবলের রূপান্তরের আগ্রহী।
সমুদ্রের এক বৃদ্ধ।

1
R2 তুলনা কেবল নেস্টেড মডেলগুলির মধ্যে অর্থবোধ করে।
এলভিআরও

@LVRao আপনার মন্তব্যের জন্য ধন্যবাদ। এটা এমন কেন?
সমুদ্রের এক বৃদ্ধ।

উত্তর:


8

এটি একটি ভাল প্রশ্ন, কারণ "বিভিন্ন পরিমাণে" তেমন কোনও ব্যাখ্যা বলে মনে হয় না।

ব্যবহার সম্পর্কে সতর্ক হওয়ার জন্য দুটি গুরুত্বপূর্ণ কারণ রয়েছে R2এই মডেলগুলির সাথে তুলনা করতে: এটি খুব অশোধিত (এটি সত্যই ফিটের সদ্ব্যবহারাকে মূল্যায়ন করে না ) এবং এটি কমপক্ষে একটি মডেলের পক্ষে অনুপযুক্ত হতে চলেছে। এই উত্তরটি দ্বিতীয় ইস্যুটিকে সম্বোধন করে।


তাত্ত্বিক চিকিত্সা

R2মডেলের অবশিষ্টাংশগুলির প্রকরণটির প্রতিক্রিয়াগুলির বৈকল্পিকের সাথে তুলনা করে। ভেরিয়েন্সটি কোনও ফিট থেকে কোনও গড় বর্ধিত বিচ্যুতি। যেমন, আমরা বুঝতে পারিR2 প্রতিক্রিয়া দুটি মডেল তুলনা হিসাবে Y

"বেস" মডেলটি হ'ল

(1)yi=μ+δআমি

কোথায় μ একটি প্যারামিটার (তাত্ত্বিক গড় প্রতিক্রিয়া) এবং δi স্বতন্ত্র এলোমেলো "ত্রুটি", প্রতিটি শূন্যের সাথে এবং এর সাধারণ বৈকল্পিক τ2

লিনিয়ার রিগ্রেশন মডেল ভেক্টরগুলির সাথে পরিচয় করিয়ে দেয়xi ব্যাখ্যামূলক ভেরিয়েবল হিসাবে:

(2)yআমি=β0+ +এক্সআমিβ+ +εআমি

সংখ্যা β0 এবং ভেক্টর βপ্যারামিটারগুলি (ইন্টারসেপ্ট এবং ""ালু")। দ্যεআমি আবার স্বতন্ত্র এলোমেলো ত্রুটি, প্রতিটি শূন্য এবং গড় বৈকল্পিক সহ σ2

আর2 বৈকল্পিকতা হ্রাস অনুমান, τ2-σ2, মূল বৈকল্পিকের সাথে তুলনা করুন τ2

আপনি যখন লগারিদমগুলি গ্রহণ করেন এবং মডেলটির সাথে মানানসই করতে সর্বনিম্ন স্কোয়ার ব্যবহার করেন , আপনি স্পষ্টভাবে ফর্মের একটি সম্পর্ককে তুলনা করছেন

(1 ক)লগ(Yআমি)=ν+ +ζআমি

ফর্ম এক

(2a)log(yi)=γ0+xiγ+ηi.

এগুলি ঠিক মডেলের মতো (1) এবং (2)কিন্তু লগ প্রতিক্রিয়া সঙ্গে। যদিও তারা প্রথম দুটি মডেলের সমতুল্য নয়। উদাহরণস্বরূপ, উভয় পক্ষের ক্ষতিকারক(2a) দিতে হবে

yi=exp(log(yi))=exp(γ0+xiγ)exp(ηi).

ত্রুটির শর্তাবলী exp(ηi)অন্তর্নিহিত সম্পর্কটি এখন গুন করুনyi=exp(γ0+xiγ)। ফলস্বরূপ প্রতিক্রিয়াগুলির বৈচিত্রগুলি

Var(yi)=exp(γ0+xiγ)2Var(eηi).

রূপগুলি নির্ভর করে xi এটা মডেল নয়(2), যা ভেরিয়েন্সগুলি সমস্ত ধ্রুবকের সমান বলে মনে করে σ2

সাধারণত, মডেলগুলির এই সেটগুলির মধ্যে কেবল একটিই তথ্যের যুক্তিসঙ্গত বিবরণ হতে পারে। দ্বিতীয় সেট প্রয়োগ করা(1a) এবং (2a) যখন প্রথম সেট (1) এবং (2)একটি ভাল মডেল, বা প্রথম যখন দ্বিতীয়টি ভাল হয়, একটি ননলাইনার, হেটেরোসেসটাস্টিক ডেটাসেটের সাথে কাজ করার পরিমাণ, যার ফলে একটি লিনিয়ার রিগ্রেশন সহ ভালভাবে ফিট হওয়া উচিত। যখন এই পরিস্থিতিগুলির মধ্যে একটির ক্ষেত্রে, আমরা আরও ভাল মডেলটি বৃহত্তর প্রদর্শনের জন্য আশা করতে পারিR2। যাইহোক, যদি উভয় ক্ষেত্রে না হয় তবে কী হবে ? আমরা কি এখনও বড় আশা করতে পারি?R2 আমাদের আরও ভাল মডেল সনাক্ত করতে সাহায্য করতে?

বিশ্লেষণ

কিছু দিক থেকে এটি একটি ভাল প্রশ্ন নয়, কারণ দুটি মডেলই যদি উপযুক্ত না হয় তবে আমাদের তৃতীয় মডেলটি খুঁজে পাওয়া উচিত। তবে আমাদের সামনে সমস্যাটি এর ইউটিলিটি নিয়ে উদ্বেগ প্রকাশ করেছেR2আমাদের এই সংকল্পটি তৈরি করতে সহায়তা করতে। তদুপরি, অনেকেই প্রথমে আকার সম্পর্কে চিন্তা করেন মধ্যে সম্পর্কেরx এবং y--এটি লিনিয়ার, এটি লোগারিটিমিক, এটি কি অন্য কিছু - রিগ্রেশন ত্রুটির বৈশিষ্ট্যগুলি নিয়ে উদ্বিগ্ন না হয়ে εi অথবা ηi। আসুন আমরা আমাদের এমন একটি পরিস্থিতি বিবেচনা করি যেখানে আমাদের মডেলটি সম্পর্কটি সঠিকভাবে পায় তবে এর ত্রুটি কাঠামো সম্পর্কে ভুল বা তদ্বিপরীত

এই জাতীয় একটি মডেল (যা সাধারণত দেখা যায়) হ'ল একটি ঘনঘন সম্পর্কের সাথে সর্বনিম্ন স্কোয়ার ফিট করে,

(3)yi=exp(α0+xiα)+θi.

এখন লগারিদম yএকটি রৈখিক ফাংশনxহিসাবে, হিসাবে (2a), তবে ত্রুটির শর্তাবলীθi additive হয় হয়(2)এই ক্ষেত্রেR2 এর মধ্যে ভুল সম্পর্কের সাথে মডেলটি বেছে নেওয়ার ক্ষেত্রে আমাদের বিভ্রান্ত করতে পারে x এবং y

এখানে মডেল একটি চিত্রণ দেওয়া হয় (3)। সেখানে300 জন্য পর্যবেক্ষণ xi (একটি 1-ভেক্টর সমানভাবে বিতরণ করা 1.0 এবং 1.6)। বাম প্যানেলটি মূলটি দেখায়(x,y) ডান প্যানেলটি যখন দেখায় তখন ডেটা (x,log(y))রূপান্তরিত তথ্য। ড্যাশযুক্ত লাল রেখাগুলি সত্যিকারের অন্তর্নিহিত সম্পর্কের পরিকল্পনা করে, যখন শক্ত নীল রেখাগুলি সর্বনিম্ন-স্কোয়ার ফিট করে। উভয় প্যানেলে ডেটা এবং সত্য সম্পর্ক একই: কেবলমাত্র মডেল এবং তাদের ফিট আলাদা fits

ছিটান প্লট

লগ প্রতিক্রিয়াগুলির ডানদিকে স্পষ্টভাবে ফিট ভাল: এটি প্রায় সত্য সম্পর্কের সাথে মিলিত হয় এবং উভয়ই লিনিয়ার। বাম দিকের মূল প্রতিক্রিয়ার সাথে মানানসই আরও খারাপ: সত্যিকারের সম্পর্কটি তাত্পর্যপূর্ণ হলেও এটি লিনিয়ার। দুর্ভাগ্যক্রমে, এর একটি উল্লেখযোগ্যভাবে বৃহত্তর মান রয়েছেR2: 0.70 তুলনা করা 0.56। এজন্য আমাদের বিশ্বাস করা উচিত নয়R2আমাদের আরও ভাল মডেলের দিকে নিয়ে যেতে যে কারণে আমাদের ফিট থাকা সত্ত্বেও সন্তুষ্ট হওয়া উচিত নয়R2 "উচ্চ" (এবং অনেক অ্যাপ্লিকেশনগুলিতে, এর মান হয়) 0.70 প্রকৃতপক্ষে উচ্চ বিবেচনা করা হবে)।


ঘটনাক্রমে, এই মডেলগুলি নির্ধারণের আরও ভাল পদ্ধতির মধ্যে ফিট টেস্টের ধার্মিকতা (যা ডানদিকে লগ মডেলের শ্রেষ্ঠত্ব নির্দেশ করবে) এবং অবশিষ্টাংশের স্থিরতার জন্য ডায়াগনস্টিক প্লট অন্তর্ভুক্ত করে (যা উভয় মডেলের সমস্যাগুলিকেই আলোকপাত করবে)। এই ধরনের মূল্যায়ন প্রাকৃতিকভাবে একটি ওজনযুক্ত সর্বনিম্ন-স্কোয়ারের দিকে নিয়ে যায়log(y) বা সরাসরি মডেল (3) নিজেই, যা সর্বোচ্চ সম্ভাবনা বা অ-লাইন ন্যূনতম ন্যূনতম স্কোয়ার পদ্ধতি ব্যবহার করে ফিট থাকতে হবে fit


আর ^ 2 নিয়ে সমালোচনা ন্যায্য নয়। প্রতিটি সরঞ্জাম হিসাবে এটির ব্যবহারটি ভালভাবে বোঝা উচিত। আপনার উপরের উদাহরণগুলিতে আর ^ 2 সঠিক বার্তা দিচ্ছে। আর ^ 2 একরকম শব্দের অনুপাতের আরও ভাল সংকেতটি বেছে নিচ্ছে। আপনি সম্পূর্ণ ভিন্ন স্কেল পাশাপাশি পাশাপাশি দুটি গ্রাফ রাখলে অবশ্যই এটি স্পষ্ট নয় not বাস্তবে শব্দ বিচ্যুতির তুলনায় বাম দিকে সংকেতটি খুব শক্ত।
ক্যাগডাস ওজজেঙ্ক

@ ক্যাগডাস আপনি মনে হয় যে অন্তর্নিহিত বিরোধী বার্তাটি দিয়েছেন। যেহেতু দুটি প্লট দুটি পৃথক স্কেলে অনিবার্যভাবে রয়েছে - একটি মূল প্রতিক্রিয়া এবং অন্যটি তাদের লোগারিথগুলি প্লট করে - তারপরে এই অনিবার্য সত্যের কারণে কিছু "সুস্পষ্ট নয়" বলে আর্জি জানায় যে এটি আপনার ক্ষেত্রে সমর্থন করে না। এই উত্তরটি "অন্যায্য" বলে অভিযোগ করে আমি প্রস্তাবিত মডেলগুলির সুস্পষ্ট বিশ্লেষণের আলোকে সত্যই ধরে রাখে না।
whuber

আমি যা বলছি তাতে কোনও লঙ্ঘন নেই। আর ^ 2 শব্দ অনুপাতের উচ্চতর সংকেতকে বেছে নিয়েছে। এটা কি করছে। এটিকে অন্য কোনও কিছুর দিকে ঘুরিয়ে দেওয়ার চেষ্টা করা এবং এটি কাজ করছে না দাবি করা সম্পূর্ণ ভুল। আর ^ 2-এর সমস্ত সমালোচনা বিভিন্ন প্রতিক্রিয়ার ভেরিয়েবলের ক্ষেত্রে প্রয়োগ করা হলে ফিট সূচকগুলির অন্যান্য ধার্মিকতার ক্ষেত্রেও প্রযোজ্য, তবে কোনও কারণে আর ^ 2 কে বধির ছাগল হিসাবে বেছে নেওয়া হয়েছে।
ক্যাগডাস ওজজেঙ্ক

@ ক্যাগডাস, এই বিশ্লেষণের কোন অংশটিকে আপনি "বলিদান" হিসাবে দেখছেন তা জানতে আমি সত্যিই আগ্রহী আর2। যতদূর আমি এটি বলতে পারি এটির একটি হতাশাজনক এবং প্রযুক্তিগতভাবে সঠিক মূল্যায়নআর2এবং এটি সম্পাদন করতে সক্ষম নয়। "শব্দের অনুপাতের সংকেত" উল্লেখ করার ক্ষেত্রে এটি কীভাবে প্রাসঙ্গিক তা আমি দেখতে পাচ্ছি না যখন বাস্তবে উদাহরণটি স্পষ্টভাবে দেখায় যে কীভাবে আরও ভাল মডেল (যে অর্থে আমি বর্ণনা করেছি, যা বেশিরভাগ লোক "ফিটনের সদ্ব্যবহার" বলতে কী বোঝায়) খুব খারাপআর2
whuber

2
আপনার সাহায্যের জন্য ধন্যবাদ। দেরিতে গ্রহণযোগ্যতার জন্য দুঃখিত, ইদানীং আমার অনেক ফ্রি সময় হয়নি। ;)
সমুদ্রের এক বৃদ্ধা।
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.