গুণাগুলির পাথ - রিজ, লাসো এবং ইলাস্টিক নেট রিগ্রেশন এর তুলনা


13

আমি রিজ, লাসো এবং ইলাস্টিক নেট দিয়ে নির্বাচিত মডেলগুলির সাথে তুলনা করতে চাই। চিত্র 3 নীচে সমস্ত 3 পদ্ধতি ব্যবহার করে সহগের পথ দেখায়: রিজ (চিত্র এ, আলফা = 0), লাসো (চিত্র বি; আলফা = 1) এবং ইলাস্টিক নেট (চিত্র সি; আলফা = 0.5)। অনুকূল সমাধান লাম্বদার নির্বাচিত মানের উপর নির্ভর করে, যা ক্রস বৈধতার ভিত্তিতে বেছে নেওয়া হয়।

রিজ (এ, আলফা = 0), লাসো (বি, আলফা = 1) এবং ইলাস্টিক নেট (সি, আলফা = 0.5) রিগ্রেশন এর সহগের প্রোফাইল।  প্লটের উপরে অবস্থিত নম্বরগুলি মডেলগুলির আকারকে উপস্থাপন করে op সর্বোত্তম সমাধান ল্যাম্বদার নির্বাচিত মানের উপর নির্ভর করে।  লাম্বদা নির্বাচন ক্রস বৈধতার উপর ভিত্তি করে।

এই প্লটগুলির দিকে তাকানোর সময়, আমি প্রত্যাশা করব যে ইলাস্টিক নেট (চিত্র সি) একটি গ্রুপিং প্রভাব প্রদর্শন করবে। তবে উপস্থাপিত ক্ষেত্রে এটি পরিষ্কার নয়। লাসো এবং ইলাস্টিক নেট এর সহগের পথটি খুব মিল। এর কারণ কী হতে পারে? এটা কি কেবল কোডিং ভুল? আমি নিম্নলিখিত কোডটি আর-তে ব্যবহার করেছি:

library(glmnet)
X<- as.matrix(mydata[,2:22])
Y<- mydata[,23]
par(mfrow=c(1,3))
ans1<-cv.glmnet(X, Y, alpha=0) # ridge
plot(ans1$glmnet.fit, "lambda", label=FALSE)
text (6, 0.4, "A", cex=1.8, font=1)
ans2<-cv.glmnet(X, Y, alpha=1) # lasso
plot(ans2$glmnet.fit, "lambda", label=FALSE)
text (-0.8, 0.48, "B", cex=1.8, font=1)
ans3<-cv.glmnet(X, Y, alpha=0.5) # elastic net 
plot(ans3$glmnet.fit, "lambda", label=FALSE)
text (0, 0.62, "C", cex=1.8, font=1)

ইলাস্টিক নেট কোফিয়েনটিস পাথ প্লট করতে ব্যবহৃত কোডটি রিজ এবং লাসোর মতোই একই। পার্থক্যটি কেবল আলফার মানেই the ইলাস্টিক নেট রিগ্রেশন জন্য আলফা প্যারামিটারটি লাম্বদা মানগুলির সাথে সংশ্লিষ্ট সর্বনিম্ন এমএসই (অর্থাত স্কোয়ার ত্রুটি) এর ভিত্তিতে নির্বাচন করা হয়েছিল।

আপনার সাহায্যের জন্য ধন্যবাদ !

উত্তর:


5

ইন ক্ষেত্রে ( কোফিসিয়েন্টস সংখ্যা, নমুনা, যা কোফিসিয়েন্টস সংখ্যা দ্বারা আপনি প্লট দেখানোর আমি অনুমান এটা কেস এখানে সংখ্যা), শুধুমাত্র বাস্তব, Lasso মডেল সঙ্গে "সমস্যা" হয় যে, যখন একাধিক বৈশিষ্ট্য সম্পর্কিত হয় এটি কিছুটা এলোমেলোভাবে নির্বাচন করতে থাকে।p<npn

যদি মূল বৈশিষ্ট্যগুলি খুব বেশি সম্পর্কযুক্ত না হয় তবে আমি বলব যে এটি সহিংস পাথের ক্ষেত্রে লাসো ইলাস্টিক নেটের অনুরূপ সঞ্চালন করা যুক্তিসঙ্গত। গ্ল্যামনেট প্যাকেজের জন্য ডকুমেন্টেশনের দিকে তাকিয়ে আমিও আপনার কোডটিতে কোনও ত্রুটি দেখতে পাচ্ছি না।


আপনার মন্তব্যের জন্য আপনাকে অনেক ধন্যবাদ। আমি সেরা মডেলটি নির্বাচন করতে নিয়মিতকরণের পদ্ধতির বিষয়ে চিন্তাভাবনা শুরু করেছি, কারণ আমি আমার ভেরিয়েবলগুলির মধ্যে একটি গুরুতর মাল্টিকোলাইনারিটি (ভিআইএফ >> 10) পর্যবেক্ষণ করেছি। তাদের মধ্যে অনেকগুলি ০.৮. এর স্তরে সম্পর্কযুক্ত ছিলাম। সুতরাং আমি আশা করছিলাম যে ইলাস্টিক নেট লাসোতে আলাদাভাবে সঞ্চালন করবে এবং একটি গ্রুপিং এফেক্ট দেখাবে (পারস্পরিক সম্পর্কযুক্ত ভেরিয়েবলের ক্ষেত্রে)।
শিক্ষানবিশ

আপনি কেবল একটি শক্তিশালী রিজ পেনাল্টি ব্যবহার করতে পারেন?
dcl

আপনি কি ডিএফ সমন্বিত মাল্টিকোলাইনারিটি চেক করেছিলেন? ফ্যাক্টর ভেরিয়েবলগুলিতে সাধারণত বহুবিধ লাইনারিটি থাকে কারণ তারা পারস্পরিক একচেটিয়া। আমি জানি না যে এই জাতীয় বহুবিধ লাসোতে সমস্যা দেয়।
বাকাবার্গ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.