X এর সাথে x এবং y এর সাথে y এর লিনিয়ার রিগ্রেশন এর মধ্যে পার্থক্য কী?


97

X এবং y এর পিয়ারসন পারস্পরিক সম্পর্কের সহগ একই, আপনি পার্সোন (x, y) বা পার্সোন (y, x) গণনা করুন কিনা। এটি পরামর্শ দেয় যে y দেওয়া x বা x প্রদত্ত y এর লিনিয়ার রিগ্রেশন করা একই হওয়া উচিত, তবে আমি মনে করি না এটি কেস।

সম্পর্কটি যখন প্রতিসম নয়, এবং কীভাবে এটি পিয়ারসন পারস্পরিক সম্পর্কের সহগের সাথে সম্পর্কযুক্ত (যা আমি সর্বদা সেরা উপযুক্ত লাইনের সংক্ষিপ্ত হিসাবে বিবেচনা করি) তার সম্পর্কে কী আলোকপাত করতে পারেন?


1
প্রতিটি পারস্পরিক সম্পর্ক ম্যাট্রিক্স প্রতিসম হবে কারণ cov(x,y)=cov(y,x) । আমি আপনাকে গণিতটি কাজে লাগিয়ে উত্সাহিত করি এটি দেখতে সত্যই সত্য। আপনার মধ্যেকার সম্পর্ককে জানেন তাহলে x এবং y (অথবা যাই হোক না কেন সুদ ভেরিয়েবল) প্রতিসম নয় অবরোহমার্গী , এটা উপকৃত হতে পারে আপনি অ্যানালাইসিসের অন্য কোন পদ্ধতি সন্ধান করার জন্য।
ফিলিপ মেঘ

14
একটি সম্পর্কিত প্রশ্নে আকর্ষণীয় পয়েন্টগুলি তৈরি করা হয়েছিল, প্রতিক্রিয়া পরিবর্তন করার সহজ প্রভাব এবং সাধারণ লিনিয়ার রিগ্রেশনটিতে ব্যাখ্যামূলক পরিবর্তনশীল
chl

উত্তর:


159

সবচেয়ে ভালো উপায় এই সম্পর্কে চিন্তা করার জন্য পয়েন্ট scatterplot কল্পনা করা হয় উল্লম্ব অক্ষ এবং এর এক্স অনুভূমিক অক্ষ দ্বারা প্রতিনিধিত্ব। এই কাঠামোটি দেওয়া, আপনি পয়েন্টের মেঘ দেখতে পাচ্ছেন, যা অস্পষ্টভাবে বিজ্ঞপ্তিযুক্ত হতে পারে বা উপবৃত্তে দীর্ঘায়িত হতে পারে। আপনি রিগ্রেশনেশনে যা করার চেষ্টা করছেন সেটি হ'ল 'সেরা ফিটের লাইন' বলা যেতে পারে। যাইহোক, এটি সোজা মনে হলেও, আমাদের 'বেস্ট' বলতে কী বোঝায় তা আমাদের খুঁজে বের করা উচিত এবং এর অর্থ একটি লাইন ভাল হওয়ার জন্য, বা একটি লাইন অন্যটির চেয়ে ভাল হওয়ার জন্য আমাদের কী তা নির্ধারণ করতে হবে, বিশেষত , আমাদের অবশ্যই একটি ক্ষতি ফাংশন নির্ধারণ করতে হবেyx। ক্ষতির ফাংশন আমাদের কীভাবে 'খারাপ' কিছু তা বলার উপায় দেয় এবং এইভাবে আমরা যখন এটি হ্রাস করি তখন আমরা আমাদের লাইনটিকে যথাসম্ভব 'ভাল' হিসাবে তৈরি করি, বা 'সেরা' লাইনটি পাই।

Ditionতিহ্যগতভাবে, আমরা যখন একটি রিগ্রেশন বিশ্লেষণ পরিচালনা করি তখন আমরা opeাল এবং সংক্ষেপের অনুমানগুলি খুঁজে পাই যাতে স্কোয়ার ত্রুটির যোগফল কমিয়ে আনতে পারে । এগুলি নিম্নলিখিত হিসাবে সংজ্ঞায়িত করা হয়:

SSE=i=1N(yi(β^0+β^1xi))2

আমাদের স্ক্যাটারপ্লোটের ক্ষেত্রে, এর অর্থ আমরা পর্যবেক্ষণ করা ডেটা পয়েন্ট এবং লাইনের মধ্যে উল্লম্ব দূরত্বগুলি (স্কোয়ারের যোগফল) হ্রাস করছি ।

এখানে চিত্র বর্ণনা লিখুন

অন্যদিকে, এটা পুরোপুরি প্রত্যাবর্তন করতে যুক্তিযুক্ত সম্মুখের Y , কিন্তু যে ক্ষেত্রে, আমরা রাখতেন এক্স উল্লম্ব অক্ষ উপর, ইত্যাদি। যদি আমরা আমাদের চক্রান্ত রাখা (সঙ্গে হিসাবে এক্স অনুভূমিক অক্ষের উপর), regressing এক্স সম্মুখের Y (আবার, সাথে উপরে সমীকরণের একটি সামান্য অভিযোজিত সংস্করণ ব্যবহার এক্স এবং ওয়াই সুইচড) মানে হল, আমরা এর সমষ্টি কমানোর হবে অনুভূমিক দূরত্বxyxxxyxyপর্যবেক্ষণ করা ডেটা পয়েন্ট এবং লাইনের মধ্যে between এটি খুব অনুরূপ শোনাচ্ছে তবে এটি একই জিনিস নয়। (এটি স্বীকৃতি দেওয়ার উপায়টি এটি উভয়ভাবেই করা, এবং তারপরে বীজগণিতভাবে প্যারামিটারের একটি অনুমানের সেটটিকে অন্যের শর্তে রূপান্তর করা the প্রথম মডেলের সাথে দ্বিতীয় মডেলের পুনরায় সাজানো সংস্করণটির সাথে তুলনা করা সহজ হয় যে তারা এগুলি একই নয়.)

এখানে চিত্র বর্ণনা লিখুন

নোট করুন যে কোনওভাবেই একই লাইনটি তৈরি করা সম্ভব হবে না আমরা যদি স্বজ্ঞাগতভাবে আঁকতাম যে কোনও গ্রাফ পেপারের সাথে এটি প্লট করা পয়েন্ট সহ আমাদের হাতে দেয়। সেক্ষেত্রে, আমরা সোজা সেন্টারের মাধ্যমে একটি রেখা আঁকা, কিন্তু উল্লম্ব দূরত্ব কমানোর একটি লাইন যে সামান্য যা উৎপাদ জপান যেহেতু অনুভূমিক দূরত্ব কমানোর একটি লাইন যে সামান্য যা উৎপাদ, (অর্থাত, একটি অগভীর ঢাল সহ) steeper

xyyxryxxy (তবে নীচে @DilipSarwate মন্তব্যটি নোট করুন)।

এখানে চিত্র বর্ণনা লিখুন

yxy। এটি কথোপকথন বলতে খুব আলাদা। এটি একটি আকর্ষণীয় historicalতিহাসিক পর্বে গুরুত্বপূর্ণ ছিল: মার্কিন যুক্তরাষ্ট্রে 70 এর দশকের শেষের দিকে এবং 80 এর দশকের প্রথমদিকে, মামলাটি তৈরি করা হয়েছিল যে কর্মক্ষেত্রে নারীদের প্রতি বৈষম্য ছিল এবং এই সমালোচনা বিশ্লেষণের সাথে সমর্থন করা হয়েছিল যে দেখায় যে সমান পটভূমির মহিলারা (উদাহরণস্বরূপ) , যোগ্যতা, অভিজ্ঞতা ইত্যাদি) গড়ে পুরুষদের চেয়ে কম দেওয়া হত। সমালোচকরা (বা কেবল অতিরিক্ত লোকেরা যারা যুক্ত ছিলেন) যুক্তি দিয়েছিলেন যে এটি যদি সত্য হয় তবে পুরুষদের সাথে সমানভাবে বেতন দেওয়া মহিলাদের আরও উচ্চ দক্ষ হতে হবে, তবে এটি যখন পরীক্ষা করা হয়েছিল তখন দেখা গেছে যে ফলাফলগুলি 'তাৎপর্যপূর্ণ' যখন ছিল এক উপায়ে মূল্যায়ন করা হয়েছে, অন্য উপায়ে চেক করার সময় এগুলি 'তাৎপর্যপূর্ণ' ছিল না, যা জড়িত প্রত্যেককে একটি অত্যাচারের মধ্যে ফেলেছিল। এখানে দেখুন একটি বিখ্যাত কাগজ যা সমস্যাটি পরিষ্কার করার চেষ্টা করেছিল for


(অনেক পরে আপডেট হয়েছে) এখানে এটি সম্পর্কে চিন্তা করার আরও একটি উপায় যা দৃষ্টিভঙ্গির পরিবর্তে সূত্রগুলির মাধ্যমে বিষয়টির দিকে এগিয়ে যায়:

yxxy

β^1=Cov(x,y)Var(x)y on x                              β^1=Cov(y,x)Var(y)x on y
Var(x)Var(y)SD(x)SD(y)β^1r
r=Cov(x,y)SD(x)SD(y)correlating x with y                           r=Cov(y,x)SD(y)SD(x)correlating y with x

2
ক্ষতির কার্যকারিতা হ্রাস করার বিষয়ে উল্লেখ করার জন্য +1। উল্লম্ব বা অনুভূমিক দূরত্বগুলির বিকল্পগুলির মধ্যে লাইন বা আয়তক্ষেত্রের ক্ষেত্রফলের দৈর্ঘ্য দূরত্ব ব্যবহার করা অন্তর্ভুক্ত, যা প্রত্যেকে আলাদা আলাদা রিগ্রেশন লাইন তৈরি করে।
হেনরি

7
yxxyxy
দিলীপ সরোতে

4
yxxxyx

1
আপনি কি বলতে পারেন যে পারস্পরিক সম্পর্কের ক্ষেত্রে পয়েন্ট এবং লাইনের মধ্যে অরথোগোনাল দূরত্ব হ্রাস করা হচ্ছে? (আমার অর্থ রেখাটি বিন্দু থেকে "রিগ্রেশন" লাইনে যাচ্ছে এবং এর উপর অরথোগোনালি দাঁড়িয়ে আছে )।
ভনজড

1
পিয়ারসনের পারস্পরিক সম্পর্ক একটি লাইনের সাথে মানানসই নয়, @ ভনজডি। এটি প্রমাণিত হয় যে এটি প্রথমে ডেটা যখন মানক করা হয় তখন এটি কোনও ফিট ন্যূনতম স্কোয়ার লাইনের opeালের সমান। 1 ম মূল উপাদানটি যখন কেবল 2 টি ভেরিয়েবল থাকে এবং ডেটা প্রথমে মানক করা হয়, এমন একটি লাগানো লাইনের ধরণ যা অরথোগোনাল দূরত্বকে হ্রাস করে। এইচটিএইচ
গাং

12

আমি কিছু Rকোড এবং আউটপুট দিয়ে উত্তর চিত্রিত করতে যাচ্ছি ।

প্রথমত, আমরা y5 এর গড় এবং 1 এর এসডি সহ একটি এলোমেলো সাধারণ বিতরণ তৈরি করি :

y <- rnorm(1000, mean=5, sd=1)

এর পরে, আমি উদ্দেশ্যমূলকভাবে একটি দ্বিতীয় এলোমেলো স্বাভাবিক বিতরণ তৈরি করি x, যা yপ্রতিটিটির জন্য কেবল 5x মূল্য y:

x <- y*5

নকশা মাধ্যমে আমরা এর নিখুঁত পারস্পরিক সম্পর্ক আছে xএবং y:

cor(x,y)
[1] 1
cor(y,x)
[1] 1

যাইহোক, আমরা যখন কোনও রিগ্রেশন করি তখন আমরা এমন একটি ফাংশন সন্ধান করি যা সম্পর্কিত xএবং yতাই রিগ্রেশন সহগের ফলাফলগুলি নির্ভর করে যে আমরা কোনটি নির্ভরশীল ভেরিয়েবল হিসাবে ব্যবহার করি এবং কোনটি আমরা স্বতন্ত্র ভেরিয়েবল হিসাবে ব্যবহার করি। এই ক্ষেত্রে, আমরা একটি ইন্টারসেপ্ট ফিট করি না কারণ আমরা কোনও এলোমেলো প্রকরণ ছাড়াই xএকটি ফাংশন তৈরি করেছি y:

lm(y~x-1)
Call:
lm(formula = y ~ x - 1)

Coefficients:
  x  
0.2

lm(x ~ y-1)
Call:
lm(formula = x ~ y - 1)

Coefficients:
y  
5  

সুতরাং নিবন্ধগুলি আমাদের তা y=0.2xএবং তা বলে x=5y, অবশ্যই কোনটি সমতুল্য। পারস্পরিক সম্পর্ক সহগটি কেবল আমাদের দেখায় যে ইউনিট পরিবর্তনের মাত্রার মধ্যে একটি সঠিক মিল রয়েছে xএবং এর মধ্যে y(উদাহরণস্বরূপ) yসর্বদা একটি 1-ইউনিট বৃদ্ধি সর্বদা 0.2-ইউনিট বৃদ্ধি উত্পাদন করে x


6

অন্তর্দৃষ্টিটি যেহেতু পিয়ারসনের পারস্পরিক সম্পর্ক একইভাবে আমরা y এর বিরুদ্ধে x এর রিগ্রেশন করি না বা x এর বিরুদ্ধে y ভাল হয়, তাই আমাদের একই লিনিয়ার রিগ্রেশন পাওয়া উচিত একটি ভাল। এটি কেবলমাত্র কিছুটা ভুল এবং আমরা আসলে এটি কী ঘটছে তা বোঝার জন্য এটি ব্যবহার করতে পারি।

এটি একটি রেখার সমীকরণ, যা আমরা আমাদের প্রতিরোধ থেকে পাওয়ার চেষ্টা করছি

এখানে চিত্র বর্ণনা লিখুন

সেই লাইনের opeালের সমীকরণটি পিয়ারসনের পারস্পরিক সম্পর্ক দ্বারা চালিত

এখানে চিত্র বর্ণনা লিখুন

এটিই পিয়ারসনের পারস্পরিক সম্পর্কের সমীকরণ। আমরা x এর বিরুদ্ধে y বা y এর বিরুদ্ধে x রেজিস্ট্রেশন করছি কিনা তা একই

এখানে চিত্র বর্ণনা লিখুন

যাইহোক আমরা যখন slালের জন্য আমাদের দ্বিতীয় সমীকরণটি ফিরে দেখি, আমরা দেখতে পাই যে সমীকরণের মধ্যে পিয়ারসনের পারস্পরিক সম্পর্ক একমাত্র পদ নয়। যদি আমরা x এর বিপরীতে y গণনা করে থাকি তবে আমাদের y এর নমুনার মান বিচ্যুতিও x এর নমুনা স্ট্যান্ডার্ড বিচ্যুতি দ্বারা বিভক্ত। যদি আমরা y এর বিরুদ্ধে x এর রিগ্রেশন গণনা করি তবে আমাদের এই দুটি পদ বিপরীত করা দরকার।


4

এই জাতীয় প্রশ্নগুলির ক্ষেত্রে প্রযুক্তিগত সমস্যাগুলি ধরা সহজ, তাই আমি থ্রেডের শিরোনামের প্রশ্নটিতে বিশেষভাবে ফোকাস করতে চাই যা জিজ্ঞাসা করে: x এর সাথে y এবং x এর সাথে y এর সাথে লিনিয়ার রিগ্রেশনটির মধ্যে পার্থক্য কী? ?

wages=b0+b1 years of education+error

years of education=b0+b1 wages+error

আমি নিশ্চিত যে আপনি এর মতো আরও উদাহরণগুলি (অর্থনীতির ক্ষেত্রের বাইরেও) সম্পর্কে ভাবতে পারেন, তবে আপনি দেখতে পাচ্ছেন, আমরা যখন y এর উপর x এ x থেকে রেজিস্ট্রেশন করা শুরু করি তখন মডেলের ব্যাখ্যাটি যথেষ্ট তাৎপর্যপূর্ণভাবে পরিবর্তিত হতে পারে।

সুতরাং, প্রশ্নের উত্তরের জন্য: x এর সাথে x এবং x এর সাথে y এর লিনিয়ার রিগ্রেশন এর মধ্যে পার্থক্য কী? , আমরা বলতে পারি যে রিগ্রেশন সমীকরণের ব্যাখ্যা পরিবর্তিত হয় যখন আমরা x এর উপর y এর পরিবর্তে x এর উপর রেজিস্ট্রেশন করি। আমাদের এই বিষয়টিকে অবহেলা করা উচিত নয় কারণ একটি মডেল যার শব্দের সংজ্ঞা দেওয়া তাড়াতাড়ি এমন একটিতে পরিণত হতে পারে যা অল্প বা বোধগম্য হয়।


3

এই বিষয়টি সম্পর্কে একটি খুব আকর্ষণীয় ঘটনা আছে। এক্স এবং ওয়াই এক্সচেঞ্জের পরে, যদিও রিগ্রেশন সহগ পরিবর্তন হয়, তবে সহগের জন্য টি-স্ট্যাটিস্টিক / এফ-পরিসংখ্যান এবং তাত্পর্য স্তর পরিবর্তন হয় না। একাধিক প্রতিরোধের ক্ষেত্রেও এটি সত্য, যেখানে আমরা স্বতন্ত্র ভেরিয়েবলগুলির সাথে y বিনিময় করি।

এটি এফ-পরিসংখ্যান এবং (আংশিক) পারস্পরিক সম্পর্ক সহগের মধ্যে একটি সূক্ষ্ম সম্পর্কের কারণে is এই সম্পর্কটি সত্যই রৈখিক মডেল তত্ত্বের মূল স্পর্শ করে my আমার নোটবুকে এই উপসংহারটি সম্পর্কে আরও বিশদ রয়েছে: কেন এক্সচেঞ্জ y এবং x এর কোনও প্রভাব নেই


আপনি নীচের থ্রেডটি আকর্ষণীয় / বিভ্রান্তিকর খুঁজে পেতে পারেন: একটি রিগ্রেশনটিতে এক্স এবং ওয়াই অদলবদল করে যা একটি গ্রুপিং পূর্বাভাসক রয়েছে
গাং

2
"কেন এক্সচেঞ্জ y এবং x এর p এর কোনও প্রভাব নেই" নিবন্ধটি এখানে আর নেই। আপনি কি এটি আবার যুক্ত করবেন?
জেটল্যাগ

1

@ গুংয়ের দুর্দান্ত উত্তরটি প্রসারিত:

ryxxy

β^1yonxβ^1xony=Cov(x,y)Var(x)Cov(y,x)Var(y)=|Cov(x,y)|SD(x)SD(y)=|r|
r
r=sign(β^1yonx)β^1yonxβ^1xony
r=sign(β^1xony)β^1yonxβ^1xony

r

|12(β^1yonx+β^1xony)|β^1yonxβ^1xony=|r|


1

 Doing regression of y given x

minbE(YbX)2

যদিও for এর : , যা এইভাবে পুনরায় লিখিত হতে পারে:doing regression of x given y মিনিট বি E (এক্স-বিওয়াই ) 2 এর রিগ্রেশন করছেন 

minbE(XbY)2

minb1b2E(YbX)2

এটি লক্ষ্য করাও গুরুত্বপূর্ণ যে, দুটি ভিন্ন-বর্ণিত সমস্যার একই সমাধান হতে পারে।


1
যদিও এই সঠিক - এবং এই পর্যবেক্ষণের জন্য আপনাকে ধন্যবাদ - আপনি আপনার পাঠকদের ঝুলন্ত ছেড়ে: আপনি ব্যাখ্যা হতে পারে কেন দুটি ভিন্ন সমাধান খুঁজছেন সমস্যার অগত্যা আলাদা?
whuber

1
look

মাঝের লাইনের সমাপ্তি শেষ লাইনটি কেমন? যদি আপনি 1 / b ^ 2 গুণন করেন তবে আপনি E (এক্স - ওয়াই / বি) E 2 নয় ই (এক্স - ওয়াইবি) ^ 2 পাবেন
অস্টিন শিন

bb:=1/b

+1: আপনি এখন স্পষ্টভাবে আপনার বক্তব্য তৈরি করেছেন!
হোবার

0

ভাল, এটি সত্য যে একটি সাধারণ দ্বিখণ্ডিত রিগ্রেশনের জন্য, উভয় সমীকরণের জন্য রৈখিক পারস্পরিক সম্পর্ক সহগ এবং আর-বর্গ সমান হবে। তবে slালগুলি r Sy / Sx বা r Sx / Sy হবে, যা r = 1 ব্যতীত একে অপরের গ্রহণযোগ্য নয়।


1
1r2=1

-7

রিগ্রেশন-এর প্রাথমিক ধারণাটি 'কারণ এবং প্রভাব' বা 'স্বতন্ত্র এবং নির্ভরশীল' হতে পারে। এক্স অক্ষরে স্বতন্ত্র পরিবর্তনশীল স্থাপন এবং Y অক্ষরে নির্ভরশীল পরিবর্তনশীল রাখার স্বাভাবিক অনুশীলন, Y = mX + c দ্বারা প্রতিনিধিত্ব করে। Opeালটিকে এম (এক্স অন ওয়াই) বা (ওয়াইজ এক্স উপর) এবং রিগ্রেশন হিসাবে বলা যেতে পারে: (এক্স উপর ওয়াই) বা (ওয়াই এক্স উপর)। এটি উভয় উপায়ে পরিচালনা করা হয়, যা ভাল নয় এবং এটি পরিষ্কার করার প্রয়োজন। সিমুলেটেড সিরিজ পর্যবেক্ষিত সিরিজের সাথে মেলে কিনা তা বিচার করতে মডেলরা প্রায়শই স্ক্যাটার প্লট ব্যবহার করেন; এবং রিগ্রেশন লাইনের ব্যবহার অপরিহার্য। এখানে কোন কার্যকারক ধারা নেই। এই প্রয়োজনীয়তাটি অনুসরণ করে থ্রেডের দ্বারা উত্থিত নিঃশব্দ প্রশ্ন। বা সহজভাবে বলতে গেলে, কীভাবে সাধারণ রিগ্রেশন বিশ্লেষণকে কল করবেন তা দয়া করে স্পষ্ট করুন: এক্স অন ওয়াই; বা এক্স অন ওয় ?, কার্যকারক উত্তরের বাইরে। এটি মূল থ্রেডের উত্তর নয়; কিন্তু একটি সমান্তরাল প্রশ্ন।


6
-1 অসম্পূর্ণ হওয়া ছাড়াও, এই উত্তরের মূল ধারণাটি এতটা ভালভাবে উত্তরের উত্তরে ব্যাখ্যা করা হয়েছে: ডেটা পরিবর্তনের সম্ভাব্যতা মডেল নির্দেশ করে যে রিগ্রেশন অর্থপূর্ণ কিনা এবং কোন ভেরিয়েবলকে নির্ভরশীল পরিবর্তনশীল হিসাবে বিবেচনা করা যেতে পারে তা নির্ধারণ করে।
হোবার

এই উত্তরদাতা প্রথাগত লেবেলের ক্ষেত্রে স্বীকৃতভাবে কিছুটা অস্পষ্ট শিরোনাম প্রশ্নের একটি ব্যাখ্যা পুনর্বিবেচনা করতে পারেন। Y = mx + b ফর্মের সমস্যার জন্য, কেউ কি সম্পর্কটিকে সাধারণত "y এর উপরে x" (হ্যাঁ) হিসাবে বা "x এর উপর y চাপিয়ে দেওয়া হয়" (না) হিসাবে বর্ণনা করে? পরিভাষা প্রশ্নের উত্তর stats.stackexchange.com/Qestions/207425/…দেওয়া হয়েছে
ইনকোরাডো
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.