λলগ( λ )Σআমি| βআমি|
সে লক্ষ্যে, আমি প্রদর্শনের জন্য কিছু সম্পর্কযুক্ত এবং অসংযুক্ত সম্পর্কযুক্ত ডেটা তৈরি করেছি:
x_uncorr <- matrix(runif(30000), nrow=10000)
y_uncorr <- 1 + 2*x_uncorr[,1] - x_uncorr[,2] + .5*x_uncorr[,3]
sigma <- matrix(c( 1, -.5, 0,
-.5, 1, -.5,
0, -.5, 1), nrow=3, byrow=TRUE
)
x_corr <- x_uncorr %*% sqrtm(sigma)
y_corr <- y_uncorr <- 1 + 2*x_corr[,1] - x_corr[,2] + .5*x_corr[,3]
ডেটাতে x_uncorr
অনিয়ন্ত্রিত কলাম রয়েছে
> round(cor(x_uncorr), 2)
[,1] [,2] [,3]
[1,] 1.00 0.01 0.00
[2,] 0.01 1.00 -0.01
[3,] 0.00 -0.01 1.00
x_corr
কলামগুলির মধ্যে পূর্ব-সেট সম্পর্ক রয়েছে while
> round(cor(x_corr), 2)
[,1] [,2] [,3]
[1,] 1.00 -0.49 0.00
[2,] -0.49 1.00 -0.51
[3,] 0.00 -0.51 1.00
এখন এই দুটি ক্ষেত্রেই লাসো প্লটটি দেখুন। প্রথমে অসম্পর্কিত ডেটা
gnet_uncorr <- glmnet(x_uncorr, y_uncorr)
plot(gnet_uncorr)
একটি দম্পতি বৈশিষ্ট্য বাইরে দাঁড়িয়ে
- ভবিষ্যদ্বাণীকারীরা সত্যিকারের লিনিয়ার রিগ্রেশন সহগের প্রবণতা অনুসারে মডেলটিতে যান।
- Σআমি| βআমি|Σআমি| βআমি|
- যখন কোনও নতুন ভবিষ্যদ্বাণী মডেলটিতে প্রবেশ করে, এটি ইতিমধ্যে মডেলটিতে থাকা সমস্ত ভবিষ্যদ্বাণীকের সংখ্যার পথের opeালকে একটি নির্জনবাদী উপায়ে প্রভাবিত করে। উদাহরণস্বরূপ, দ্বিতীয় ভবিষ্যদ্বাণীকারী যখন মডেলটিতে প্রবেশ করেন, তখন প্রথম সহগের পথের opeাল অর্ধেক কেটে নেওয়া হয়। যখন তৃতীয় ভবিষ্যদ্বাণী মডেলটিতে প্রবেশ করে, তখন সহগ পাথের opeাল তার মূল মানের এক তৃতীয়াংশ।
এগুলি সমস্ত সাধারণ তথ্য যা অমীমাংসিত ডেটা সহ লাসো রিগ্রেশন প্রযোজ্য এবং এগুলি সবই হাত দ্বারা প্রমাণিত (ভাল ব্যায়াম!) হতে পারে বা সাহিত্যে পাওয়া যায়।
এখন আসুন প্রাসঙ্গিক তথ্য
gnet_corr <- glmnet(x_corr, y_corr)
plot(gnet_corr)
আপনি এই প্লটটি থেকে অসম্পর্কিত কেসের সাথে তুলনা করে কিছু জিনিস পড়তে পারেন
- তৃতীয় ভবিষ্যদ্বাণী সম্পর্কিত হওয়া সত্ত্বেও তৃতীয় ভবিষ্যদ্বাণী মডেলটিতে প্রবেশ না হওয়া অবধি প্রথম এবং দ্বিতীয় ভবিষ্যদ্বাণীমূলক পাথের অমীমাংসিত মামলার মতো কাঠামো রয়েছে। এটি দুটি ভবিষ্যদ্বাণীকারী কেসের একটি বিশেষ বৈশিষ্ট্য, আমি আগ্রহের যদি অন্য উত্তরে ব্যাখ্যা করতে পারি তবে এটি বর্তমান আলোচনার কিছুটা দূরে আমাকে নিয়ে যাবে।
- ∑ | βআমি|
সুতরাং এখন আসুন আপনার গাড়ি প্ল্যাটফর্মের ডেটাসেট থেকে প্লটটি দেখুন এবং কিছু আকর্ষণীয় জিনিস পড়ুন (আমি আপনার প্লটটি এখানে পুনরুত্পাদন করেছি যাতে এই আলোচনাটি পড়া সহজ):
সতর্কতার একটি শব্দ : আমি বক্ররেখা মানক সহগগুলি দেখায় এই ধারণাটি অনুসারে নিম্নলিখিত বিশ্লেষণটি লিখেছিলাম , উদাহরণস্বরূপ তারা তা করে না। অ-মানক সহগগুলি মাত্রাবিহীন এবং তুলনীয় নয়, সুতরাং ভবিষ্যদ্বাণীপূর্ণ গুরুত্বের দিক থেকে তাদের থেকে কোনও সিদ্ধান্ত নেওয়া যাবে না। নিম্নলিখিত বিশ্লেষণ বৈধ হওয়ার জন্য, দয়া করে ভান করুন যে প্লটটি মানকযুক্ত গুণাগুণগুলির, এবং দয়া করে মানক সহগের পথে আপনার নিজস্ব বিশ্লেষণ সম্পাদন করুন।
- আপনি যেমনটি বলেছেন,
wt
ভবিষ্যদ্বাণীকারীটিকে খুব গুরুত্বপূর্ণ বলে মনে হচ্ছে। এটি প্রথমে মডেলটিতে প্রবেশ করে এবং এর চূড়ান্ত মানটিতে ধীর এবং অবিচলিত বংশদ্ভুত রয়েছে। এর কিছু am
সংযোগ রয়েছে যা এটিকে কিছুটা গণ্ডগোলের যাত্রায় পরিণত করে, বিশেষত মনে হয় এটি প্রবেশের সময় একটি কঠোর প্রভাব ফেলে।
am
এছাড়াও গুরুত্বপূর্ণ। এটি পরে আসে এবং এর সাথে সম্পর্কিত হয় wt
, কারণ এটি wt
হিংস্র উপায়ে theালকে প্রভাবিত করে । এটি এর সাথেও সম্পর্কিত carb
এবং qsec
কারণ আমরা যখন thoseালেন তখন slালের অনুমানযোগ্য নমনীয়তা আমরা দেখতে পাই না। পরে এই চারটি ভেরিয়েবল যদিও লিখে ফেলেছেন, আমরা কি চমৎকার সম্পর্কহীন প্যাটার্ন দেখতে, তাই এটি শেষে সব ভবিষ্যতবক্তা সঙ্গে সম্পর্কহীন মনে করা হয়।
- কিছু এক্স-অক্ষের উপর প্রায় 2.25 এ প্রবেশ করে, কিন্তু তার পথ নিজেই অদৃশ্য হয়, তাহলে আপনি শুধু এটা সনাক্ত করতে পারে তার প্রভাবিত দ্বারা
cyl
এবং wt
প্যারামিটার।
cyl
বেশ মুখোমুখি। এটি দ্বিতীয় প্রবেশ করে, তাই ছোট মডেলগুলির জন্য এটি গুরুত্বপূর্ণ। অন্যান্য ভেরিয়েবলগুলির পরে এবং বিশেষত am
প্রবেশের পরে, এটি আর অত গুরুত্বপূর্ণ নয় এবং এর প্রবণতাটি বিপরীত হয়, শেষ পর্যন্ত সমস্ত অপসারণ করা হয়। দেখে মনে হচ্ছে cyl
প্রক্রিয়াটির শেষে প্রবেশকারী ভেরিয়েবলগুলি এর প্রভাব সম্পূর্ণরূপে ক্যাপচার করতে পারে। এটি ব্যবহার করা আরও উপযুক্ত কিনা cyl
, বা ভেরিয়েবলগুলির পরিপূরক গোষ্ঠী সত্যই পক্ষপাতিত্ব-বৈকল্পিক ট্রেড অফের উপর নির্ভর করে। আপনার চূড়ান্ত মডেলটিতে গোষ্ঠীটি থাকার ফলে এটির পার্থক্য উল্লেখযোগ্যভাবে বৃদ্ধি পাবে, তবে নিম্ন পক্ষপাতটি এটির ক্ষেত্রে হতে পারে!
আমি কীভাবে এই প্লটগুলির তথ্য পড়তে শিখেছি তার একটি ছোট্ট পরিচয়। আমার মনে হয় এরা অনেক মজা করছে!
একটি দুর্দান্ত বিশ্লেষণের জন্য ধন্যবাদ। সরল পদে প্রতিবেদন করার জন্য, আপনি কি বলবেন যে ডাব্লুটি, এম এবং সিল এমপিজি-র সবচেয়ে গুরুত্বপূর্ণ ভবিষ্যদ্বাণীকারী। এছাড়াও, আপনি যদি পূর্বাভাসের জন্য একটি মডেল তৈরি করতে চান, তবে এই চিত্রটির উপর ভিত্তি করে আপনি কোনটি অন্তর্ভুক্ত করবেন: ডব্লিউটি, এম এবং সিল? বা অন্য কিছু সংমিশ্রণ। এছাড়াও, বিশ্লেষণের জন্য আপনার সেরা ল্যাম্বডা লাগবে না বলে মনে হয়। এটি কি রিজ রিগ্রেশন হিসাবে গুরুত্বপূর্ণ নয়?
আমি কেসটি বলব wt
এবং am
পরিষ্কার কাটা, সেগুলি গুরুত্বপূর্ণ। cyl
এটি আরও সূক্ষ্ম, এটি একটি ছোট মডেলের ক্ষেত্রে গুরুত্বপূর্ণ, তবে কোনও বৃহত্তর মডেলের ক্ষেত্রে মোটেই প্রাসঙ্গিক নয়।
আমি কেবল চিত্রের উপর ভিত্তি করে কী অন্তর্ভুক্ত করব তা নিয়ে আমি দৃ determination়সংকল্পবদ্ধ করতে পারব না, আপনি যা করছেন তার প্রসঙ্গে সত্যই উত্তর দিতে হবে। আপনি বলতে পারেন যে আপনি যদি তিনটি ভবিষ্যদ্বাণীকারী মডেল চান তবে wt
, am
এবং cyl
ভাল পছন্দগুলি হ'ল তারা জিনিসগুলির দুর্দান্ত পরিকল্পনার ক্ষেত্রে প্রাসঙ্গিক এবং ছোট মডেলটিতে যুক্তিসঙ্গত প্রভাব আকারের হওয়া উচিত। এটি এই ধারণাটি অনুসারে পূর্বাভাস দেওয়া হয়েছে যে যদিও আপনার কাছে একটি ছোট তিনটি ভবিষ্যদ্বাণী মডেল চাওয়ার কিছু বাহ্যিক কারণ রয়েছে।
এটি সত্য, এই জাতীয় বিশ্লেষণটি ল্যাম্বডাসের পুরো বর্ণালীর উপরে নজর রাখে এবং আপনাকে বিভিন্ন মডেলের জটিলতার মধ্যে সম্পর্ক ছাঁটাই করতে দেয়। এটি বলেছিল, চূড়ান্ত মডেলের জন্য, আমি মনে করি একটি অনুকূল ল্যাম্বডা সুর করা খুব গুরুত্বপূর্ণ। অন্যান্য সীমাবদ্ধতার অভাবে, আমি স্পষ্টরূপে সবচেয়ে স্পষ্টতাত্ত্বিক ল্যাম্বডাটি কোথায় রয়েছে তা খুঁজে পেতে অবশ্যই ক্রস বৈধতা ব্যবহার করব এবং তারপরে একটি চূড়ান্ত মডেল এবং চূড়ান্ত বিশ্লেষণের জন্য সেই ল্যাম্বডাকে ব্যবহার করব ।
λ
অন্যদিকে, কখনও কখনও মডেল কতটা জটিল হতে পারে তার জন্য বাইরের প্রতিবন্ধকতা রয়েছে (বাস্তবায়নের ব্যয়, উত্তরাধিকার ব্যবস্থা, ব্যাখ্যামূলক ন্যূনতমতা, ব্যবসায়িক ব্যাখ্যা, নান্দনিক দেশপ্রেম) এবং এই ধরণের পরিদর্শন আপনাকে আপনার ডেটার আকৃতি বুঝতে সত্যই সহায়তা করতে পারে এবং সর্বোত্তম মডেলের চেয়ে ছোট চয়ন করে আপনি যে ট্রেড অফগুলি করছেন
-1
মধ্যেglmnet(as.matrix(mtcars[-1]), mtcars[,1])
।