λলগ( λ )Σআমি| βআমি|
সে লক্ষ্যে, আমি প্রদর্শনের জন্য কিছু সম্পর্কযুক্ত এবং অসংযুক্ত সম্পর্কযুক্ত ডেটা তৈরি করেছি:
x_uncorr <- matrix(runif(30000), nrow=10000)
y_uncorr <- 1 + 2*x_uncorr[,1] - x_uncorr[,2] + .5*x_uncorr[,3]
sigma <- matrix(c( 1, -.5, 0,
-.5, 1, -.5,
0, -.5, 1), nrow=3, byrow=TRUE
)
x_corr <- x_uncorr %*% sqrtm(sigma)
y_corr <- y_uncorr <- 1 + 2*x_corr[,1] - x_corr[,2] + .5*x_corr[,3]
ডেটাতে x_uncorrঅনিয়ন্ত্রিত কলাম রয়েছে
> round(cor(x_uncorr), 2)
[,1] [,2] [,3]
[1,] 1.00 0.01 0.00
[2,] 0.01 1.00 -0.01
[3,] 0.00 -0.01 1.00
x_corrকলামগুলির মধ্যে পূর্ব-সেট সম্পর্ক রয়েছে while
> round(cor(x_corr), 2)
[,1] [,2] [,3]
[1,] 1.00 -0.49 0.00
[2,] -0.49 1.00 -0.51
[3,] 0.00 -0.51 1.00
এখন এই দুটি ক্ষেত্রেই লাসো প্লটটি দেখুন। প্রথমে অসম্পর্কিত ডেটা
gnet_uncorr <- glmnet(x_uncorr, y_uncorr)
plot(gnet_uncorr)

একটি দম্পতি বৈশিষ্ট্য বাইরে দাঁড়িয়ে
- ভবিষ্যদ্বাণীকারীরা সত্যিকারের লিনিয়ার রিগ্রেশন সহগের প্রবণতা অনুসারে মডেলটিতে যান।
- Σআমি| βআমি|Σআমি| βআমি|
- যখন কোনও নতুন ভবিষ্যদ্বাণী মডেলটিতে প্রবেশ করে, এটি ইতিমধ্যে মডেলটিতে থাকা সমস্ত ভবিষ্যদ্বাণীকের সংখ্যার পথের opeালকে একটি নির্জনবাদী উপায়ে প্রভাবিত করে। উদাহরণস্বরূপ, দ্বিতীয় ভবিষ্যদ্বাণীকারী যখন মডেলটিতে প্রবেশ করেন, তখন প্রথম সহগের পথের opeাল অর্ধেক কেটে নেওয়া হয়। যখন তৃতীয় ভবিষ্যদ্বাণী মডেলটিতে প্রবেশ করে, তখন সহগ পাথের opeাল তার মূল মানের এক তৃতীয়াংশ।
এগুলি সমস্ত সাধারণ তথ্য যা অমীমাংসিত ডেটা সহ লাসো রিগ্রেশন প্রযোজ্য এবং এগুলি সবই হাত দ্বারা প্রমাণিত (ভাল ব্যায়াম!) হতে পারে বা সাহিত্যে পাওয়া যায়।
এখন আসুন প্রাসঙ্গিক তথ্য
gnet_corr <- glmnet(x_corr, y_corr)
plot(gnet_corr)

আপনি এই প্লটটি থেকে অসম্পর্কিত কেসের সাথে তুলনা করে কিছু জিনিস পড়তে পারেন
- তৃতীয় ভবিষ্যদ্বাণী সম্পর্কিত হওয়া সত্ত্বেও তৃতীয় ভবিষ্যদ্বাণী মডেলটিতে প্রবেশ না হওয়া অবধি প্রথম এবং দ্বিতীয় ভবিষ্যদ্বাণীমূলক পাথের অমীমাংসিত মামলার মতো কাঠামো রয়েছে। এটি দুটি ভবিষ্যদ্বাণীকারী কেসের একটি বিশেষ বৈশিষ্ট্য, আমি আগ্রহের যদি অন্য উত্তরে ব্যাখ্যা করতে পারি তবে এটি বর্তমান আলোচনার কিছুটা দূরে আমাকে নিয়ে যাবে।
- ∑ | βআমি|
সুতরাং এখন আসুন আপনার গাড়ি প্ল্যাটফর্মের ডেটাসেট থেকে প্লটটি দেখুন এবং কিছু আকর্ষণীয় জিনিস পড়ুন (আমি আপনার প্লটটি এখানে পুনরুত্পাদন করেছি যাতে এই আলোচনাটি পড়া সহজ):
সতর্কতার একটি শব্দ : আমি বক্ররেখা মানক সহগগুলি দেখায় এই ধারণাটি অনুসারে নিম্নলিখিত বিশ্লেষণটি লিখেছিলাম , উদাহরণস্বরূপ তারা তা করে না। অ-মানক সহগগুলি মাত্রাবিহীন এবং তুলনীয় নয়, সুতরাং ভবিষ্যদ্বাণীপূর্ণ গুরুত্বের দিক থেকে তাদের থেকে কোনও সিদ্ধান্ত নেওয়া যাবে না। নিম্নলিখিত বিশ্লেষণ বৈধ হওয়ার জন্য, দয়া করে ভান করুন যে প্লটটি মানকযুক্ত গুণাগুণগুলির, এবং দয়া করে মানক সহগের পথে আপনার নিজস্ব বিশ্লেষণ সম্পাদন করুন।

- আপনি যেমনটি বলেছেন,
wtভবিষ্যদ্বাণীকারীটিকে খুব গুরুত্বপূর্ণ বলে মনে হচ্ছে। এটি প্রথমে মডেলটিতে প্রবেশ করে এবং এর চূড়ান্ত মানটিতে ধীর এবং অবিচলিত বংশদ্ভুত রয়েছে। এর কিছু amসংযোগ রয়েছে যা এটিকে কিছুটা গণ্ডগোলের যাত্রায় পরিণত করে, বিশেষত মনে হয় এটি প্রবেশের সময় একটি কঠোর প্রভাব ফেলে।
amএছাড়াও গুরুত্বপূর্ণ। এটি পরে আসে এবং এর সাথে সম্পর্কিত হয় wt, কারণ এটি wtহিংস্র উপায়ে theালকে প্রভাবিত করে । এটি এর সাথেও সম্পর্কিত carbএবং qsecকারণ আমরা যখন thoseালেন তখন slালের অনুমানযোগ্য নমনীয়তা আমরা দেখতে পাই না। পরে এই চারটি ভেরিয়েবল যদিও লিখে ফেলেছেন, আমরা কি চমৎকার সম্পর্কহীন প্যাটার্ন দেখতে, তাই এটি শেষে সব ভবিষ্যতবক্তা সঙ্গে সম্পর্কহীন মনে করা হয়।
- কিছু এক্স-অক্ষের উপর প্রায় 2.25 এ প্রবেশ করে, কিন্তু তার পথ নিজেই অদৃশ্য হয়, তাহলে আপনি শুধু এটা সনাক্ত করতে পারে তার প্রভাবিত দ্বারা
cylএবং wtপ্যারামিটার।
cylবেশ মুখোমুখি। এটি দ্বিতীয় প্রবেশ করে, তাই ছোট মডেলগুলির জন্য এটি গুরুত্বপূর্ণ। অন্যান্য ভেরিয়েবলগুলির পরে এবং বিশেষত amপ্রবেশের পরে, এটি আর অত গুরুত্বপূর্ণ নয় এবং এর প্রবণতাটি বিপরীত হয়, শেষ পর্যন্ত সমস্ত অপসারণ করা হয়। দেখে মনে হচ্ছে cylপ্রক্রিয়াটির শেষে প্রবেশকারী ভেরিয়েবলগুলি এর প্রভাব সম্পূর্ণরূপে ক্যাপচার করতে পারে। এটি ব্যবহার করা আরও উপযুক্ত কিনা cyl, বা ভেরিয়েবলগুলির পরিপূরক গোষ্ঠী সত্যই পক্ষপাতিত্ব-বৈকল্পিক ট্রেড অফের উপর নির্ভর করে। আপনার চূড়ান্ত মডেলটিতে গোষ্ঠীটি থাকার ফলে এটির পার্থক্য উল্লেখযোগ্যভাবে বৃদ্ধি পাবে, তবে নিম্ন পক্ষপাতটি এটির ক্ষেত্রে হতে পারে!
আমি কীভাবে এই প্লটগুলির তথ্য পড়তে শিখেছি তার একটি ছোট্ট পরিচয়। আমার মনে হয় এরা অনেক মজা করছে!
একটি দুর্দান্ত বিশ্লেষণের জন্য ধন্যবাদ। সরল পদে প্রতিবেদন করার জন্য, আপনি কি বলবেন যে ডাব্লুটি, এম এবং সিল এমপিজি-র সবচেয়ে গুরুত্বপূর্ণ ভবিষ্যদ্বাণীকারী। এছাড়াও, আপনি যদি পূর্বাভাসের জন্য একটি মডেল তৈরি করতে চান, তবে এই চিত্রটির উপর ভিত্তি করে আপনি কোনটি অন্তর্ভুক্ত করবেন: ডব্লিউটি, এম এবং সিল? বা অন্য কিছু সংমিশ্রণ। এছাড়াও, বিশ্লেষণের জন্য আপনার সেরা ল্যাম্বডা লাগবে না বলে মনে হয়। এটি কি রিজ রিগ্রেশন হিসাবে গুরুত্বপূর্ণ নয়?
আমি কেসটি বলব wtএবং amপরিষ্কার কাটা, সেগুলি গুরুত্বপূর্ণ। cylএটি আরও সূক্ষ্ম, এটি একটি ছোট মডেলের ক্ষেত্রে গুরুত্বপূর্ণ, তবে কোনও বৃহত্তর মডেলের ক্ষেত্রে মোটেই প্রাসঙ্গিক নয়।
আমি কেবল চিত্রের উপর ভিত্তি করে কী অন্তর্ভুক্ত করব তা নিয়ে আমি দৃ determination়সংকল্পবদ্ধ করতে পারব না, আপনি যা করছেন তার প্রসঙ্গে সত্যই উত্তর দিতে হবে। আপনি বলতে পারেন যে আপনি যদি তিনটি ভবিষ্যদ্বাণীকারী মডেল চান তবে wt, amএবং cylভাল পছন্দগুলি হ'ল তারা জিনিসগুলির দুর্দান্ত পরিকল্পনার ক্ষেত্রে প্রাসঙ্গিক এবং ছোট মডেলটিতে যুক্তিসঙ্গত প্রভাব আকারের হওয়া উচিত। এটি এই ধারণাটি অনুসারে পূর্বাভাস দেওয়া হয়েছে যে যদিও আপনার কাছে একটি ছোট তিনটি ভবিষ্যদ্বাণী মডেল চাওয়ার কিছু বাহ্যিক কারণ রয়েছে।
এটি সত্য, এই জাতীয় বিশ্লেষণটি ল্যাম্বডাসের পুরো বর্ণালীর উপরে নজর রাখে এবং আপনাকে বিভিন্ন মডেলের জটিলতার মধ্যে সম্পর্ক ছাঁটাই করতে দেয়। এটি বলেছিল, চূড়ান্ত মডেলের জন্য, আমি মনে করি একটি অনুকূল ল্যাম্বডা সুর করা খুব গুরুত্বপূর্ণ। অন্যান্য সীমাবদ্ধতার অভাবে, আমি স্পষ্টরূপে সবচেয়ে স্পষ্টতাত্ত্বিক ল্যাম্বডাটি কোথায় রয়েছে তা খুঁজে পেতে অবশ্যই ক্রস বৈধতা ব্যবহার করব এবং তারপরে একটি চূড়ান্ত মডেল এবং চূড়ান্ত বিশ্লেষণের জন্য সেই ল্যাম্বডাকে ব্যবহার করব ।
λ
অন্যদিকে, কখনও কখনও মডেল কতটা জটিল হতে পারে তার জন্য বাইরের প্রতিবন্ধকতা রয়েছে (বাস্তবায়নের ব্যয়, উত্তরাধিকার ব্যবস্থা, ব্যাখ্যামূলক ন্যূনতমতা, ব্যবসায়িক ব্যাখ্যা, নান্দনিক দেশপ্রেম) এবং এই ধরণের পরিদর্শন আপনাকে আপনার ডেটার আকৃতি বুঝতে সত্যই সহায়তা করতে পারে এবং সর্বোত্তম মডেলের চেয়ে ছোট চয়ন করে আপনি যে ট্রেড অফগুলি করছেন
-1মধ্যেglmnet(as.matrix(mtcars[-1]), mtcars[,1])।