আর তে লাসো সহ বহুবিভাজনীয় লিনিয়ার রিগ্রেশন


9

আমি অনেক নির্ভরশীল ভেরিয়েবল (ডিভি) (450 ডলার) এর পূর্বাভাস দিতে একটি হ্রাস করা মডেল তৈরি করার চেষ্টা করছি যা অত্যন্ত পরস্পর সম্পর্কিত।

আমার স্বতন্ত্র ভেরিয়েবলগুলি (IV) এছাড়াও অনেকগুলি (~ 2000) এবং অত্যন্ত সংযুক্ত।

আমি যদি প্রতিটি আউটপুটের জন্য স্বতন্ত্রভাবে একটি হ্রাসকৃত মডেল নির্বাচন করতে লাসো ব্যবহার করি, তবে প্রতিটি নির্ভরশীল ভেরিয়েবলের লুপ করার সাথে সাথে স্বাধীন ভেরিয়েবলগুলির একই উপসেটটি পাওয়ার নিশ্চয়তা আমি পাই না।

কোনও মাল্টিভারিয়েট লিনিয়ার রিগ্রেশন কি আর-তে লাসো ব্যবহার করে?

এটি গ্রুপ লাসো নয়। গ্রুপ লাসো গ্রুপ IV। আমি মাল্টিভারিয়েট লিনিয়ার রিগ্রেশন চাই (যার অর্থ ডিভি একটি ম্যাট্রিক্স, স্কেলারের ভেক্টর নয়), যা লাসো প্রয়োগ করে। (দ্রষ্টব্য: এনআরএইচ যেমন উল্লেখ করেছে, এটি সত্য নয় Group গ্রুপ লাসো একটি সাধারণ শব্দ যা চতুর্থকে গ্রুপ করে এমন কৌশলগুলি অন্তর্ভুক্ত করে তবে সেই কৌশলগুলিও অন্তর্ভুক্ত করে যা ডিভি হিসাবে অন্যান্য পরামিতিগুলিকে গোষ্ঠী করে)

আমি এই কাগজটি পেয়েছি যা স্পার্স ওভারল্যাপিং সেটস লাসো নামে পরিচিত

এখানে কিছু কোড রয়েছে যা মাল্টিভারিয়েট লিনিয়ার রিগ্রেশন করে

> dim(target)
[1] 6060  441
> dim(dictionary)
[1] 6060 2030
> fit = lm(target~dictionary)

এখানে কিছু কোড যা একক ডিভিতে লাসো করে

> fit = glmnet(dictionary, target[,1])

এবং এটিই আমি করতে চাই:

> fit = glmnet(dictionary, target)
Error in weighted.mean.default(y, weights) : 
  'x' and 'w' must have the same length

সমস্ত লক্ষ্যগুলি একসাথে ফিট করে এমন বৈশিষ্ট্য নির্বাচন করা


আপনি শেষ পয়েন্টটি বাদে যা জিজ্ঞাসা করছেন তা অস্পষ্ট। প্যাকেজটি বলা হয় glmnetএবং এটির একটি সম্পূর্ণ ভিনিট রয়েছে।
জেনেরিক_উজার

"প্রতিবার" বলতে কী বোঝ? আপনি কি এটি আপনার ডেটা সাবসেটে চালাচ্ছেন? ক্রস বৈধতা? বিভিন্ন নমুনা?
শ্যাডোটালকার

প্রতিটি সময় দ্বারা, আমি বোঝাতে চাইছি আমি বর্তমানে একক সময়ে একক নির্ভরশীল ভেরিয়েবলের উপর গ্ল্যামনেট চালাচ্ছি এবং সেগুলির মধ্য দিয়ে লুপিং করছি
kmace

বা অন্য কথায় আমার y সর্বদা ভেক্টর, ম্যাট্রিক্স নয়
kmace

1
@ ফায়ারব্যাগ আমি জানতাম না যে শব্দটি আরও সাধারণ ছিল। সে সম্পর্কে দুঃখিত
16'15

উত্তর:


11

মাল্টিভাইয়ারেট প্রতিক্রিয়াগুলির জন্য (1 এর চেয়ে বেশি নির্ভরশীল ভেরিয়েবলের সংখ্যা), আপনাকে family = "mgaussian"কল করতে হবে glmnet

Lsgl প্যাকেজ একটি বিকল্প, যা একটি নমনীয় শাস্তি প্রদান করে।

একটি সঙ্গে -dimensional প্রতিক্রিয়া, glmnet প্যাকেজ কার্যকরী শাস্তি যেখানে জন্য কোফিসিয়েন্টস বাহক তম predictor। আপনার সাহায্যের পৃষ্ঠায় পড়তে পারেন:k

j=1pβj2

βj=(βj1,,βjk)Tjglmnet

প্রাক্তন [ family = "mgaussian"] প্রতিটি ভেরিয়েবলের সহগের উপর একটি "গ্রুপ-ক্লাসো" পেনাল্টি ব্যবহার করে একটি মাল্টি-রেসপন্স গাউসী মডেলকে ফিট হতে দেয়। প্রতিক্রিয়াগুলি একসাথে এইভাবে বেঁধে রাখাকে কিছু ডোমেইনে "মাল্টি-টাস্ক" শেখা বলা হয়।

এই জরিমানাটি একটি গ্রুপ লাসো জরিমানার একটি উদাহরণ, যা একই পূর্বাভাসকের সাথে সম্পর্কিত বিভিন্ন প্রতিক্রিয়াগুলির জন্য পরামিতিগুলিকে গ্রুপ করে। এটি টিউনিং প্যারামিটারের প্রদত্ত মানের জন্য সমস্ত প্রতিক্রিয়া জুড়ে একই ভবিষ্যদ্বাণীকারীদের নির্বাচনের ফলাফল।

Lsgl প্যাকেজটি আকারের স্পার্স গ্রুপ লাসো পেনাল্টি প্রয়োগ করে যেখানে এবং বিভিন্ন পদ থেকে অবদানগুলিকে ভারসাম্য বজায় রাখতে বেছে নেওয়া নির্দিষ্ট ওজন। ডিফল্ট এবং । প্যারামিটার একটি টিউনিং প্যারামিটার। সঙ্গে (এবং ) শাস্তি দ্বারা ব্যবহৃত শাস্তি সমতূল্য সঙ্গে । সঙ্গে (এবং

αj=1pl=1kξjl|βjl|+(1α)j=1pγjβj2

ξjlγjξjl=1γj=kα[0,1]α=0γj=1glmnetfamily = "mgaussian"α=1ξjl=1) পেনাল্টি সাধারণ লাসো দেয়। এলএসজিএল বাস্তবায়ন ভবিষ্যদ্বাণীকারীদের একটি অতিরিক্ত গোষ্ঠীকরণের অনুমতি দেয়।

গ্রুপ লাসো সম্পর্কে একটি নোট। গোষ্ঠী লাসো শব্দটি প্রায়শই ভবিষ্যদ্বাণীকারীদের গোষ্ঠীগুলির সাথে সম্পর্কিত। যাইহোক, আরও সাধারণ দৃষ্টিকোণ থেকে, গ্রুপ লাসো কেবল পেনাল্টিতে পরামিতিগুলির একটি গ্রুপিং। এর glmnetসাথে ব্যবহৃত family = "mgaussian"গোষ্ঠীকরণটি প্রতিক্রিয়াগুলি জুড়ে পরামিতিগুলির একটি গোষ্ঠীকরণ। এই ধরনের গোষ্ঠীকরণের প্রভাবটি প্রতিক্রিয়ার জুড়ে প্যারামিটারগুলির অনুমানকে দ্বিগুণ করে তোলা, যা একটি ভাল ধারণা হিসাবে প্রমাণিত হয়, যদি সমস্ত প্রতিক্রিয়াগুলি প্রায় একই পূর্বাভাসকারীদের সেট থেকে অনুমান করা যায়। একাধিক শেখার সমস্যার সাথে মিলিত হওয়ার সাধারণ ধারণা, যা কিছু কাঠামো ভাগ করে নেবে বলে আশা করা হয়, এটি মাল্টি-টাস্ক লার্নিং হিসাবে পরিচিত ।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.