এই লাসো প্লট (গ্ল্যামনেট) থেকে কী উপসংহার নেওয়া উচিত


19

ডিভিডি হিসাবে ডিভিটি mtcarsসেট করে ডেভিড আলফা (১, সুতরাং লাসো) সহ গ্ল্যামনেটের প্লটটি mpgভবিষ্যদ্বাণী ভেরিয়েবল হিসাবে অন্য হিসাবে সেট করা হয় ।

glmnet(as.matrix(mtcars[-1]), mtcars[,1])

এখানে চিত্র বর্ণনা লিখুন

আমরা কি বিভিন্ন ভেরিয়েবল সংক্রান্ত এই চক্রান্ত থেকে এই উপসংহারে আসতে পারি, বিশেষ করে am, cylএবং wt(লাল, কালো এবং হালকা নীল লাইন)? একটি প্রতিবেদন প্রকাশের জন্য কীভাবে আমরা আউটপুটটি বাক্যটি দেব?

আমি নিম্নলিখিত সম্পর্কে চিন্তা:

  1. wtসবচেয়ে গুরুত্বপূর্ণ ভবিষ্যদ্বাণীকারী mpg। এটি নেতিবাচকভাবে প্রভাবিত করছে mpg

  2. cylএকটি দুর্বল নেতিবাচক ভবিষ্যদ্বাণী mpg

  3. amএর ইতিবাচক ভবিষ্যদ্বাণী হতে পারে mpg

  4. অন্যান্য ভেরিয়েবলগুলি এর দৃust় ভবিষ্যদ্বাণীকারী নয় mpg

এই আপনার চিন্তা করার জন্য ধন্যবাদ।

(দ্রষ্টব্য: cylএটি কালো রেখা যা এটি খুব কাছাকাছি পর্যন্ত 0 পৌঁছায় না))

সম্পাদনা করুন: নীচেরটি প্লট (মোড, এক্সভার = 'ল্যাম্বদা') যা উপরের প্লটটির বিপরীতে এক্স-অক্ষ দেখায়:

এখানে চিত্র বর্ণনা লিখুন

(পিএস: আপনি যদি এই প্রশ্নটিকে আকর্ষণীয় / গুরুত্বপূর্ণ মনে করেন তবে দয়া করে এটি উত্সাহিত করুন;)


দেখে মনে হচ্ছে আপনি আগে একটি কমা ভুলে গেছি -1মধ্যে glmnet(as.matrix(mtcars[-1]), mtcars[,1])
রিচার্ড হার্ডি

কমা যদি দেওয়া না হয়, আর নম্বরটি কলাম নম্বর হিসাবে ধরে নেয়, তাই এটি কাজ করে।
rnso

খুব ভাল, আমি এখন আগে না।
রিচার্ড হার্ডি

2
পুনঃটুইট করুন ডেটা ফ্রেম এবং ম্যাট্রিক্সের জন্য এই আচরণটি আলাদা। একটি ডেটা ফ্রেম একটি তালিকা, এবং প্রতিটি কলাম সেই তালিকার একটি উপাদান, সুতরাং my_data_frame[1]একটি কলাম সহ একটি ডেটা ফ্রেম প্রদান করে, my_data_frame[[1]]এবং my_data_frame[, 1]উভয়ই কোনও ডেটা ফ্রেমের দ্বারা "অন্তর্ভুক্ত" না থাকা একটি ভেক্টর ফেরত দেয় । ম্যাট্রিক্স অবশ্য আসলে একটি বিশেষ গুণ যা একটি গ্রিড মত এগুলি অ্যাক্সেস করতে আর অনুমতি দেয়, সাথে তাই শুধু ফ্ল্যাট ভেক্টর হয় my_matrix[1], my_matrix[1, 1]এবং my_matrix[[1]]প্রথম ফিরে আসবে উপাদান এর my_matrixmy_matrix[, 1] প্রথম কলামটি ফেরত দেয়।
ছায়াছবির

2
আমি কেবল উল্লেখ করেছি যে প্লটমো প্যাকেজে প্লট_গ্ল্যামনেট ফাংশনটি আরও ভাল গুণাগুণ প্লট দেয় কারণ এটি লেবেল ওভারপ্লোটিং এবং অন্যান্য কিছু বিবরণের যত্ন নেয়। উদাহরণস্বরূপ প্লটরেস ভিগনেটে অধ্যায় 6 এ পাওয়া যেতে পারে ।
স্টিফেন মিলবারো

উত্তর:


39

λলগ(λ)Σআমি|βআমি|

সে লক্ষ্যে, আমি প্রদর্শনের জন্য কিছু সম্পর্কযুক্ত এবং অসংযুক্ত সম্পর্কযুক্ত ডেটা তৈরি করেছি:

x_uncorr <- matrix(runif(30000), nrow=10000)
y_uncorr <- 1 + 2*x_uncorr[,1] - x_uncorr[,2] + .5*x_uncorr[,3]

sigma <- matrix(c(  1, -.5,   0,
                  -.5,   1, -.5,
                    0, -.5,   1), nrow=3, byrow=TRUE
)
x_corr <- x_uncorr %*% sqrtm(sigma)
y_corr <- y_uncorr <- 1 + 2*x_corr[,1] - x_corr[,2] + .5*x_corr[,3]

ডেটাতে x_uncorrঅনিয়ন্ত্রিত কলাম রয়েছে

> round(cor(x_uncorr), 2)
     [,1]  [,2]  [,3]
[1,] 1.00  0.01  0.00
[2,] 0.01  1.00 -0.01
[3,] 0.00 -0.01  1.00

x_corrকলামগুলির মধ্যে পূর্ব-সেট সম্পর্ক রয়েছে while

> round(cor(x_corr), 2)
      [,1]  [,2]  [,3]
[1,]  1.00 -0.49  0.00
[2,] -0.49  1.00 -0.51
[3,]  0.00 -0.51  1.00

এখন এই দুটি ক্ষেত্রেই লাসো প্লটটি দেখুন। প্রথমে অসম্পর্কিত ডেটা

gnet_uncorr <- glmnet(x_uncorr, y_uncorr)
plot(gnet_uncorr)

এখানে চিত্র বর্ণনা লিখুন

একটি দম্পতি বৈশিষ্ট্য বাইরে দাঁড়িয়ে

  • ভবিষ্যদ্বাণীকারীরা সত্যিকারের লিনিয়ার রিগ্রেশন সহগের প্রবণতা অনুসারে মডেলটিতে যান।
  • Σআমি|βআমি|Σআমি|βআমি|
  • যখন কোনও নতুন ভবিষ্যদ্বাণী মডেলটিতে প্রবেশ করে, এটি ইতিমধ্যে মডেলটিতে থাকা সমস্ত ভবিষ্যদ্বাণীকের সংখ্যার পথের opeালকে একটি নির্জনবাদী উপায়ে প্রভাবিত করে। উদাহরণস্বরূপ, দ্বিতীয় ভবিষ্যদ্বাণীকারী যখন মডেলটিতে প্রবেশ করেন, তখন প্রথম সহগের পথের opeাল অর্ধেক কেটে নেওয়া হয়। যখন তৃতীয় ভবিষ্যদ্বাণী মডেলটিতে প্রবেশ করে, তখন সহগ পাথের opeাল তার মূল মানের এক তৃতীয়াংশ।

এগুলি সমস্ত সাধারণ তথ্য যা অমীমাংসিত ডেটা সহ লাসো রিগ্রেশন প্রযোজ্য এবং এগুলি সবই হাত দ্বারা প্রমাণিত (ভাল ব্যায়াম!) হতে পারে বা সাহিত্যে পাওয়া যায়।

এখন আসুন প্রাসঙ্গিক তথ্য

gnet_corr <- glmnet(x_corr, y_corr)
plot(gnet_corr)

এখানে চিত্র বর্ণনা লিখুন

আপনি এই প্লটটি থেকে অসম্পর্কিত কেসের সাথে তুলনা করে কিছু জিনিস পড়তে পারেন

  • তৃতীয় ভবিষ্যদ্বাণী সম্পর্কিত হওয়া সত্ত্বেও তৃতীয় ভবিষ্যদ্বাণী মডেলটিতে প্রবেশ না হওয়া অবধি প্রথম এবং দ্বিতীয় ভবিষ্যদ্বাণীমূলক পাথের অমীমাংসিত মামলার মতো কাঠামো রয়েছে। এটি দুটি ভবিষ্যদ্বাণীকারী কেসের একটি বিশেষ বৈশিষ্ট্য, আমি আগ্রহের যদি অন্য উত্তরে ব্যাখ্যা করতে পারি তবে এটি বর্তমান আলোচনার কিছুটা দূরে আমাকে নিয়ে যাবে।
  • Σ|βআমি|

সুতরাং এখন আসুন আপনার গাড়ি প্ল্যাটফর্মের ডেটাসেট থেকে প্লটটি দেখুন এবং কিছু আকর্ষণীয় জিনিস পড়ুন (আমি আপনার প্লটটি এখানে পুনরুত্পাদন করেছি যাতে এই আলোচনাটি পড়া সহজ):

সতর্কতার একটি শব্দ : আমি বক্ররেখা মানক সহগগুলি দেখায় এই ধারণাটি অনুসারে নিম্নলিখিত বিশ্লেষণটি লিখেছিলাম , উদাহরণস্বরূপ তারা তা করে না। অ-মানক সহগগুলি মাত্রাবিহীন এবং তুলনীয় নয়, সুতরাং ভবিষ্যদ্বাণীপূর্ণ গুরুত্বের দিক থেকে তাদের থেকে কোনও সিদ্ধান্ত নেওয়া যাবে না। নিম্নলিখিত বিশ্লেষণ বৈধ হওয়ার জন্য, দয়া করে ভান করুন যে প্লটটি মানকযুক্ত গুণাগুণগুলির, এবং দয়া করে মানক সহগের পথে আপনার নিজস্ব বিশ্লেষণ সম্পাদন করুন।

এখানে চিত্র বর্ণনা লিখুন

  • আপনি যেমনটি বলেছেন, wtভবিষ্যদ্বাণীকারীটিকে খুব গুরুত্বপূর্ণ বলে মনে হচ্ছে। এটি প্রথমে মডেলটিতে প্রবেশ করে এবং এর চূড়ান্ত মানটিতে ধীর এবং অবিচলিত বংশদ্ভুত রয়েছে। এর কিছু amসংযোগ রয়েছে যা এটিকে কিছুটা গণ্ডগোলের যাত্রায় পরিণত করে, বিশেষত মনে হয় এটি প্রবেশের সময় একটি কঠোর প্রভাব ফেলে।
  • amএছাড়াও গুরুত্বপূর্ণ। এটি পরে আসে এবং এর সাথে সম্পর্কিত হয় wt, কারণ এটি wtহিংস্র উপায়ে theালকে প্রভাবিত করে । এটি এর সাথেও সম্পর্কিত carbএবং qsecকারণ আমরা যখন thoseালেন তখন slালের অনুমানযোগ্য নমনীয়তা আমরা দেখতে পাই না। পরে এই চারটি ভেরিয়েবল যদিও লিখে ফেলেছেন, আমরা কি চমৎকার সম্পর্কহীন প্যাটার্ন দেখতে, তাই এটি শেষে সব ভবিষ্যতবক্তা সঙ্গে সম্পর্কহীন মনে করা হয়।
  • কিছু এক্স-অক্ষের উপর প্রায় 2.25 এ প্রবেশ করে, কিন্তু তার পথ নিজেই অদৃশ্য হয়, তাহলে আপনি শুধু এটা সনাক্ত করতে পারে তার প্রভাবিত দ্বারা cylএবং wtপ্যারামিটার।
  • cylবেশ মুখোমুখি। এটি দ্বিতীয় প্রবেশ করে, তাই ছোট মডেলগুলির জন্য এটি গুরুত্বপূর্ণ। অন্যান্য ভেরিয়েবলগুলির পরে এবং বিশেষত amপ্রবেশের পরে, এটি আর অত গুরুত্বপূর্ণ নয় এবং এর প্রবণতাটি বিপরীত হয়, শেষ পর্যন্ত সমস্ত অপসারণ করা হয়। দেখে মনে হচ্ছে cylপ্রক্রিয়াটির শেষে প্রবেশকারী ভেরিয়েবলগুলি এর প্রভাব সম্পূর্ণরূপে ক্যাপচার করতে পারে। এটি ব্যবহার করা আরও উপযুক্ত কিনা cyl, বা ভেরিয়েবলগুলির পরিপূরক গোষ্ঠী সত্যই পক্ষপাতিত্ব-বৈকল্পিক ট্রেড অফের উপর নির্ভর করে। আপনার চূড়ান্ত মডেলটিতে গোষ্ঠীটি থাকার ফলে এটির পার্থক্য উল্লেখযোগ্যভাবে বৃদ্ধি পাবে, তবে নিম্ন পক্ষপাতটি এটির ক্ষেত্রে হতে পারে!

আমি কীভাবে এই প্লটগুলির তথ্য পড়তে শিখেছি তার একটি ছোট্ট পরিচয়। আমার মনে হয় এরা অনেক মজা করছে!

একটি দুর্দান্ত বিশ্লেষণের জন্য ধন্যবাদ। সরল পদে প্রতিবেদন করার জন্য, আপনি কি বলবেন যে ডাব্লুটি, এম এবং সিল এমপিজি-র সবচেয়ে গুরুত্বপূর্ণ ভবিষ্যদ্বাণীকারী। এছাড়াও, আপনি যদি পূর্বাভাসের জন্য একটি মডেল তৈরি করতে চান, তবে এই চিত্রটির উপর ভিত্তি করে আপনি কোনটি অন্তর্ভুক্ত করবেন: ডব্লিউটি, এম এবং সিল? বা অন্য কিছু সংমিশ্রণ। এছাড়াও, বিশ্লেষণের জন্য আপনার সেরা ল্যাম্বডা লাগবে না বলে মনে হয়। এটি কি রিজ রিগ্রেশন হিসাবে গুরুত্বপূর্ণ নয়?

আমি কেসটি বলব wtএবং amপরিষ্কার কাটা, সেগুলি গুরুত্বপূর্ণ। cylএটি আরও সূক্ষ্ম, এটি একটি ছোট মডেলের ক্ষেত্রে গুরুত্বপূর্ণ, তবে কোনও বৃহত্তর মডেলের ক্ষেত্রে মোটেই প্রাসঙ্গিক নয়।

আমি কেবল চিত্রের উপর ভিত্তি করে কী অন্তর্ভুক্ত করব তা নিয়ে আমি দৃ determination়সংকল্পবদ্ধ করতে পারব না, আপনি যা করছেন তার প্রসঙ্গে সত্যই উত্তর দিতে হবে। আপনি বলতে পারেন যে আপনি যদি তিনটি ভবিষ্যদ্বাণীকারী মডেল চান তবে wt, amএবং cylভাল পছন্দগুলি হ'ল তারা জিনিসগুলির দুর্দান্ত পরিকল্পনার ক্ষেত্রে প্রাসঙ্গিক এবং ছোট মডেলটিতে যুক্তিসঙ্গত প্রভাব আকারের হওয়া উচিত। এটি এই ধারণাটি অনুসারে পূর্বাভাস দেওয়া হয়েছে যে যদিও আপনার কাছে একটি ছোট তিনটি ভবিষ্যদ্বাণী মডেল চাওয়ার কিছু বাহ্যিক কারণ রয়েছে।

এটি সত্য, এই জাতীয় বিশ্লেষণটি ল্যাম্বডাসের পুরো বর্ণালীর উপরে নজর রাখে এবং আপনাকে বিভিন্ন মডেলের জটিলতার মধ্যে সম্পর্ক ছাঁটাই করতে দেয়। এটি বলেছিল, চূড়ান্ত মডেলের জন্য, আমি মনে করি একটি অনুকূল ল্যাম্বডা সুর করা খুব গুরুত্বপূর্ণ। অন্যান্য সীমাবদ্ধতার অভাবে, আমি স্পষ্টরূপে সবচেয়ে স্পষ্টতাত্ত্বিক ল্যাম্বডাটি কোথায় রয়েছে তা খুঁজে পেতে অবশ্যই ক্রস বৈধতা ব্যবহার করব এবং তারপরে একটি চূড়ান্ত মডেল এবং চূড়ান্ত বিশ্লেষণের জন্য সেই ল্যাম্বডাকে ব্যবহার করব ।

λ

অন্যদিকে, কখনও কখনও মডেল কতটা জটিল হতে পারে তার জন্য বাইরের প্রতিবন্ধকতা রয়েছে (বাস্তবায়নের ব্যয়, উত্তরাধিকার ব্যবস্থা, ব্যাখ্যামূলক ন্যূনতমতা, ব্যবসায়িক ব্যাখ্যা, নান্দনিক দেশপ্রেম) এবং এই ধরণের পরিদর্শন আপনাকে আপনার ডেটার আকৃতি বুঝতে সত্যই সহায়তা করতে পারে এবং সর্বোত্তম মডেলের চেয়ে ছোট চয়ন করে আপনি যে ট্রেড অফগুলি করছেন


একটি দুর্দান্ত বিশ্লেষণের জন্য ধন্যবাদ। সরল পদে প্রতিবেদন করার জন্য, আপনি কি বলবেন যে ডাব্লুটি, এম এবং সিল এমপিজি-র সবচেয়ে গুরুত্বপূর্ণ ভবিষ্যদ্বাণীকারী। এছাড়াও, আপনি যদি পূর্বাভাসের জন্য একটি মডেল তৈরি করতে চান, তবে এই চিত্রটির উপর ভিত্তি করে আপনি কোনটি অন্তর্ভুক্ত করবেন: ডব্লিউটি, এম এবং সিল? বা অন্য কিছু সংমিশ্রণ। এছাড়াও, বিশ্লেষণের জন্য আপনার সেরা ল্যাম্বডা লাগবে না বলে মনে হয়। এটি কি রিজ রিগ্রেশন হিসাবে গুরুত্বপূর্ণ নয়?
rnso

@ আরএনএসো আমি আমার উত্তরের একটি প্রতিক্রিয়া যুক্ত করেছি।
ম্যাথু ড্র্যারি

সম্ভবত 'দেশপ্রেম' কি 'পার্সিমনি' হওয়ার কথা?
হাটসেপসুট

@ ম্যাথু ড্রুরি, আমার কাছে কয়েকটি জিনিস রয়েছে যা সম্পর্কে আমি নিশ্চিত নই, আমি আপনার স্পষ্টতার জন্য কৃতজ্ঞ হব, # আপনি লিখেছেন "উদাহরণস্বরূপ, যখন দ্বিতীয় ভবিষ্যদ্বাণীকারী প্রবেশ করান" আমি কীভাবে দ্বিতীয় চূড়ান্ত বা তৃতীয় ভবিষ্যদ্বাণী / প্রবেশের প্লট থেকে জানতে পারি? । ## আমি কখন বলতে পারি এই ভবিষ্যদ্বাণীকারীরা গুরুত্বপূর্ণ বা না। ### পরিশেষে, আমি কীভাবে সেরা এই মডেলটিকে বেছে নিতে পারি। তদুপরি, কিংবদন্তি / লেবেলটি স্বয়ংক্রিয়ভাবে অন্তর্ভুক্ত। (আমি আর এ উদাহরণটি প্রয়োগ করেছি)
জেজা

5
+6, এটি প্রকাশের সময় আমি স্পষ্টতই মিস করেছি। সত্যিই দুর্দান্ত কাজ।
গুং - মনিকা পুনরায়
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.