ভেরিয়েবলগুলি ছড়িয়ে না দিয়ে আপনি কীভাবে অস্থির


13

উচ্চ মাল্টি-কোলাইনারিটির সাথে লিনিয়ার রিগ্রেশনে বিটা স্থিতিশীলতা?

আসুন একটি লিনিয়ার রিগ্রেশন বলি, ভ্যারিয়েবল এবং এর উচ্চ মাল্টি-কোলাইনারিটি রয়েছে (পারস্পরিক সম্পর্ক 0.9 এর কাছাকাছি)।x 2x1x2

আমরা সহগ স্থিতিশীলতার জন্য উদ্বিগ্ন তাই আমাদের বহু-প্রান্তিকের চিকিত্সা করতে হবে।β

পাঠ্যপুস্তকের সমাধানটি কেবলমাত্র একটি ভেরিয়েবলকে ফেলে দেওয়া হবে।

তবে আমরা কেবল ভেরিয়েবলগুলি ফেলে দিয়ে দরকারী তথ্য হারাতে চাই না।

কোন পরামর্শ?


5
আপনি কি এক ধরণের নিয়মিতকরণ প্রকল্পের (উদাহরণস্বরূপ রিজ রিগ্রেশন) চেষ্টা করেছেন?
নস্টোর

উত্তর:


11

পারস্পরিক সম্পর্কের ম্যাট্রিক্স এককালের কাছে থাকলে (যেমন ভেরিয়েবলগুলির উচ্চতর পারস্পরিক সম্পর্ক থাকে) আপনি ক্ষেত্রে রিজ রিগ্রেশন পদ্ধতির চেষ্টা করতে পারেন । এটি আপনাকে একটি শক্তিশালী অনুমান সরবরাহ করবে ।β

একমাত্র প্রশ্ন হ'ল নিয়মিতকরণ পরামিতি কীভাবে চয়ন করবেন । এটি কোনও সাধারণ সমস্যা নয়, যদিও আমি বিভিন্ন মূল্যবোধ চেষ্টা করার পরামর্শ দিই।λ

আশাকরি এটা সাহায্য করবে!


2
ক্রস-বৈধকরণ ;-) চয়ন করার জন্য করা স্বাভাবিক জিনিস । λ
নস্টোর

প্রকৃতপক্ষে (উত্তর এবং নেস্টারদের মন্তব্যের জন্য +1), এবং যদি আপনি "ক্যানোনিকাল ফর্ম" তে গণনাগুলি সম্পাদন করেন ( এর ইগেন পচন ব্যবহার করে , আপনি খুঁজে পাবেন λ লাট-ওয়ান-আউট ক্রস-বৈধতা ত্রুটিটি ছোট করে নিউটনের পদ্ধতি খুব সস্তায়।XTXλ
Dikran মার্সুপিয়াল্স

অনেক ধন্যবাদ! আর-তে ক্রস-বৈধকরণ সহ কীভাবে এটি করা যায় তার জন্য কোনও টিউটোরিয়াল / নোটস?
লুনা

এই বইয়ের 3 য় অধ্যায়টি দেখুন: স্ট্যানফোর্ড.ইডু / ~হস্টি / লোকাল.ফট / এসপ্রিঞ্জার / এস এল এলআই_প্রিন্ট 5.pdf । রিজ রিগ্রেশন বাস্তবায়ন কিছু লেখক আর দ্বারা সম্পন্ন করেছেন (গুগল আপনার বন্ধু!)।
নস্টোর

2
আপনি lm.ridgeম্যাস প্যাকেজে রুটিনটি ব্যবহার করতে পারেন । যদি আপনি এটি জন্য মান একটি সীমার পাস যদি , যেমন, মত একটি কল , আপনি সাধারণ ক্রস বৈধতা পরিসংখ্যান ফিরে পাবেন , এবং তাদের বিরুদ্ধে চক্রান্ত করতে λ : ন্যূনতম বাছাই। λfoo <- lm.ridge(y~x1+x2,lambda=seq(0,10,by=0.1))fooλplot(foo$GCV~foo$lambda)
jbowman

10

ঠিক আছে, এখানে একটি অ্যাডহক পদ্ধতি রয়েছে যা আমি আগে ব্যবহার করেছি। আমি নিশ্চিত নই যে এই পদ্ধতির কোনও নাম আছে তবে এটি স্বজ্ঞাতভাবে বোঝা যায়।

মনে করুন আপনার লক্ষ্যটি মডেলটির সাথে ফিট করে

Yi=β0+β1Xi+β2Zi+εi

যেখানে দুটি ভবিষ্যদ্বাণী - - অত্যন্ত পারস্পরিক সম্পর্কযুক্ত। আপনি যেমন উল্লেখ করেছেন, একই মডেল এগুলি উভয়টিই ব্যবহার করে সহগের অনুমান এবং পি- মূল্যগুলি অদ্ভুত কাজ করতে পারে । একটি বিকল্প মডেল ফিট করা হয়Xi,Zip

Zi=α0+α1Xi+ηi

তারপরে অবশিষ্ট এক্স আই এর সাথে সম্পর্কযুক্ত হবে না এবং এক অর্থে জেড আই এর অংশ হিসাবে বিবেচনা করা যেতে পারে যা এক্স আইয়ের সাথে এর লিনিয়ার সম্পর্কের দ্বারা গ্রাহ্য নয় । তারপরে, আপনি মডেল ফিট করতে এগিয়ে যেতে পারেনηiXiZiXi

Yi=θ0+θ1Xi+θ2ηi+νi

যা প্রথম মডেলের সমস্ত প্রভাব ক্যাপচার করবে (এবং প্রকৃতপক্ষে প্রথম মডেলের মতো হ'ল ) তবে ভবিষ্যদ্বাণীকারীরা আর কোলাইনারি নেই।R2

সম্পাদনা: ওপি সংক্ষেপে অন্তর্ভুক্ত থাকে যখন আপনি যখন বিরতি অন্তর্ভুক্ত করেন তখন আপনি যেমন বিরতি বাদ দেন তখন কীভাবে অবশিষ্টদের, সংজ্ঞা অনুসারে, ভবিষ্যদ্বাণীকের সাথে শূন্যের একটি নমুনা পারস্পরিক সম্পর্ক থাকে না তার একটি ব্যাখ্যা চেয়েছে। মন্তব্যগুলিতে পোস্ট করতে এটি অনেক দীর্ঘ তাই আমি এখানে একটি সম্পাদনা করেছি। এই উত্সটি বিশেষভাবে আলোকিত নয় (দুর্ভাগ্যক্রমে আমি যুক্তিসঙ্গত স্বজ্ঞাত যুক্তি দিয়ে আসতে পারিনি) তবে এটি ওপি কী অনুরোধ করেছিল তা দেখায় :

পথিমধ্যে সহজ রৈখিক রিগ্রেশনের বাদ দেওয়া হয়, তখন , β = Σ এক্স আমি Y আমি , সুতরাংei=yi-xixiyiβ^=xiyixi2 । মধ্যে নমুনা পারস্পরিক সম্পর্কএক্সআমিএবংআমিসমানুপাতিক হয় ¯ এক্স - ¯ এক্স ¯ যেখানে ¯ উল্লেখ করে নমুনা বার অধীনে পরিমাণ গড়। আমি এখন এটি শূন্যের সমান হবে না তা দেখাব।ei=yixixiyixi2xiei

xe¯x¯e¯
¯

প্রথম আমাদের আছে

xe¯=1n(xiyixi2xiyixi2)=xy¯(1xi2xi2)=0

কিন্তু

x¯e¯=x¯(y¯x¯xy¯x2¯)=x¯y¯x¯2xy¯x2¯

সুতরাং এবং x i এর ঠিক 0 এর একটি নমুনা পারস্পরিক সম্পর্ক থাকতে হলে আমাদের 0 হতে ¯ x ¯ e প্রয়োজন । তা হল, আমাদের ¯ y = ¯ x¯ x y দরকারeixix¯e¯0

y¯=x¯xy¯x2¯

যা এর দুটি স্বেচ্ছাসেবী সেটের জন্য সাধারণভাবে ধারণ করে না ।x,y


এটি আমাকে আংশিক রিগ্রেশন প্লটের স্মরণ করিয়ে দেয় ।
অ্যান্ডি ডাব্লু

3
(X,Z)

3
XZ

1
হাই ম্যাক্রো, দুর্দান্ত প্রমাণের জন্য আপনাকে ধন্যবাদ। হ্যাঁ, এখন আমি এটি বুঝতে পারি। যখন আমরা এক্স এবং অবশিষ্টাংশের মধ্যে নমুনা পারস্পরিক সম্পর্ক সম্পর্কে কথা বলি, তখন নমুনা পারস্পরিক সম্পর্কের জন্য ইন্টারসেপ্ট শব্দটি অন্তর্ভুক্ত করা দরকার। অন্যদিকে, আমরা যখন x এবং অবশিষ্টাংশের মধ্যে orthogonality সম্পর্কে কথা বলি, তখন এটিকে বাধা শব্দটির প্রয়োজন হয় না it অন্তর্ভুক্ত করা, orthogonality রাখা জন্য।
লুনা

1
@ লুনা, আমি বিশেষভাবে রিজ রিগ্রেশন ব্যবহারের সাথে একমত নই - এটি আমার ক্ষেত্রে প্রথম ঘটেছিল (আমি প্রস্তাব দেওয়ার আগে উত্তর দিয়েছিলাম)। একটি জিনিস আমি বলতে পারি যে রিজ রিগ্রেশন অনুমানটি পক্ষপাতদুষ্ট, সুতরাং, কিছুটা অর্থে, আপনি সাধারণত সাধারণ প্রতিরোধের তুলনায় কিছুটা আলাদা (সঙ্কুচিত) পরিমাণ অনুমান করছেন, সহগের ব্যাখ্যাটি সম্ভবত আরও চ্যালেঞ্জিং করে তুলবে (গাং হিসাবে) allutes to)। এছাড়াও, আমি এখানে যা বর্ণনা করেছি তার জন্য কেবল প্রাথমিক লিনিয়ার রিগ্রেশন বোঝার দরকার হয় এবং কারও কাছে আরও স্বজ্ঞাতভাবে আবেদন করা হতে পারে।
ম্যাক্রো

4

আমি এই পর্যন্ত দেওয়া উভয় উত্তর পছন্দ করি। আমাকে কিছু জিনিস যোগ করতে দিন।

আরেকটি বিকল্প হ'ল আপনি ভেরিয়েবলগুলিও একত্র করতে পারেন । এটি উভয়কেই মানক করে (অর্থাত্ তাদের জেড-স্কোরগুলিতে পরিণত করা) গড় গড়ে, এবং তারপরে কেবলমাত্র সংমিশ্রিত ভেরিয়েবলের সাথে আপনার মডেলটিকে ফিট করে। আপনি যদি বিশ্বাস করেন যে তারা একই অন্তর্নিহিত কন্সট্রাক্টের দুটি পৃথক ব্যবস্থা রয়েছে তখন এটি একটি ভাল পদ্ধতির হতে পারে। সেক্ষেত্রে আপনার দুটি মাপকাঠি রয়েছে যা ত্রুটি দ্বারা দূষিত। আপনি সত্যিই পরিবর্তনশীল জন্য সম্ভবত সম্ভবত সত্য মানযত্ন তাদের মধ্যে হয়, এইভাবে তাদের গড় আরও সঠিক অনুমান দেয়। আপনি তাদের একই স্কেলে রাখার জন্য প্রথমে তাদেরকে মানিক করে তোলেন, যাতে নামমাত্র সমস্যাগুলি ফলাফলটিকে দূষিত না করে (যেমন, কিছু ফারেনহাইট এবং কিছু সেলসিয়াস হলে আপনি বেশ কয়েকটি তাপমাত্রা পরিমাপ গড়তে চান না)। অবশ্যই, যদি তারা ইতিমধ্যে একই স্কেলে থাকে (যেমন, বেশ কয়েকটি উচ্চ-সম্পর্কিত জনমত পোল), আপনি এই পদক্ষেপটি এড়িয়ে যেতে পারেন। যদি আপনি ভাবেন যে আপনার ভেরিয়েবলগুলির মধ্যে একটি অন্যের চেয়ে বেশি নির্ভুল হতে পারে, তবে আপনি একটি ওজনযুক্ত গড় করতে পারেন (সম্ভবত পরিমাপের ত্রুটির প্রতিদানগুলি ব্যবহার করে) using

r>.98তাদের একত্রিত করেছেন, তবে কেন বিরক্ত করবেন? তবে এটি আপনার ভেরিয়েবলগুলি পরস্পর সম্পর্কিত হওয়ার কারণে এটি সমালোচনামূলকভাবে নির্ভর করে কারণ তারা একই জিনিসটির দুটি ভিন্ন সংস্করণ; যদি তাদের কোনও পারস্পরিক সম্পর্কযুক্ত আলাদা কারণ থাকে তবে এটি সম্পূর্ণ অনুপযুক্ত হতে পারে।

X1X2YXZ Xx1x2XZ

আমি সম্মত হয়েছি যে রিজ রিগ্রেশনটি তর্কযোগ্যভাবে আরও ভাল, কারণ এটি আপনাকে মূল পরিবর্তনগুলি ব্যবহার করতে দেয় এবং সম্ভবত তাদের প্রকৃত মানগুলির খুব কাছাকাছি বিটা পাওয়া যায় (যদিও তারা পক্ষপাতদুষ্ট হবে - আরও তথ্যের জন্য এখানে বা এখানে দেখুন )। তবুও, আমি মনে করি এর দুটি সম্ভাব্য ডাউনসাইডও রয়েছে: এটি আরও জটিল (আরও পরিসংখ্যানগত পরিশীলনের প্রয়োজন), এবং ফলস্বরূপ মডেলটি আমার মতে ব্যাখ্যা করা আরও কঠিন।

আমি সংগ্রহ করেছি যে সম্ভবত চূড়ান্ত পদ্ধতির কাঠামোগত সমীকরণ মডেল ফিট করতে হবে। এর কারণ এটি আপনাকে সুপ্ত ভেরিয়েবলগুলি সহ অপারেটিভ বলে বিশ্বাস করে এমন সম্পর্কের সঠিক সেট তৈরি করার অনুমতি দেবে। তবে আমি এখানে এসএমএম সম্পর্কে খুব ভাল করে জানি না, এখানে সম্ভাবনার কথা বলা ছাড়া অন্য কিছু বলতে হবে। (আমি সন্দেহ করি যে এটি আপনি কেবল দু'জন covariates দিয়ে বর্ণনা করেছেন এমন পরিস্থিতিতে ওভারকিল হবে))


4
X1eX1X2=X1+eX1Y=eYX1X2YX1X2Y=X2X1X1X2YY

অনেক অনেক ধন্যবাদ! চতুর্থাংশ 1। কেন এই পদ্ধতির কাজ করে: "এটি উভয়কেই মানক করে (অর্থাত্ এগুলি জেড-স্কোরগুলিতে পরিণত করা), গড় গড়ে এবং তারপরে কেবলমাত্র সংমিশ্রিত ভেরিয়েবলের সাথে আপনার মডেলটি ফিট করে?" Q2 এর। রিজ রিগ্রেশন কেন ভাল হবে? চতুর্থাংশ 3। কেন SEM ভাল হবে? কেউ দয়া করে কিছু আলোকপাত করবেন? ধন্যবাদ!
লুনা

হাই লুনা, সাহায্য করে খুশি। আমি আসলে এটি পুনরায় সম্পাদনা করতে যাচ্ছি; @ শুভ আমি প্রথমে বুঝতে পেরেছি বলে ঠিক মত ছিল। আমি ডাব্লু / আপনার অতিরিক্ত প্রশ্নগুলির সাহায্যের জন্য আরও কিছু দেওয়ার চেষ্টা করব, তবে এতে অনেক সময় লাগবে, তাই এটি কিছুটা সময় হতে পারে। আমরা এটি দেখতে কিভাবে দেখতে হবে।
গাং - মনিকা পুনরায়
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.