আমি ভাবছি যে কীভাবে আর এ গ্ল্যামনেট ব্যবহার করে কোনও লাসো মডেলকে সঠিকভাবে প্রশিক্ষণ এবং পরীক্ষা করতে হবে?
- বিশেষত, আমি ভাবছি যে যদি বাহ্যিক পরীক্ষার ডেটা সেটের অভাবে আমার লাসো মডেলটি পরীক্ষা করতে আমি ক্রস-বৈধকরণ (বা অন্যান্য অনুরূপ পদ্ধতির) ব্যবহার করি তবে এটি কীভাবে করবেন তা আমি ভাবছি ।
আমাকে আমার পরিস্থিতি ভেঙে দিন:
আমার গ্ল্যামনেট মডেলটি জানান এবং প্রশিক্ষণের জন্য আমার কাছে কেবল একটি ডেটা সেট রয়েছে। ফলস্বরূপ, আমার মডেলটি পরীক্ষা করার উপায় তৈরি করতে আমার ডেটা বিভক্ত করতে আমাকে ক্রস-বৈধতা ব্যবহার করতে হবে।
আমি ইতিমধ্যে ব্যবহার করছি cv.glmnet
, যা প্যাকেজ বিবরণ অনুযায়ী :
গ্ল্যামনেটের জন্য কে-ভাঁজ ক্রস-বৈধতা দেয়, একটি প্লট তৈরি করে এবং ল্যাম্বদার জন্য একটি মান প্রদান করে।
ক্রস-বৈধকরণটি
cv.glmnet
কেবল সেরা ল্যাম্বডা বাছাই করার জন্য সম্পাদিত হয় , বা এটি আরও সাধারণ ক্রস-বৈধকরণ পদ্ধতি হিসাবে পরিবেশন করছে?- অন্য কথায়, আমার মডেলটির "পরীক্ষা" চালানোর জন্য এখনও আমার কি অন্য ক্রস-বৈধতা পদক্ষেপ করা দরকার?
"হ্যাঁ আমি করি" এই ধারণা নিয়ে কাজ করছি।
এটি হ'ল, আমি কীভাবে আমার cv.glmnet
মডেলকে বৈধতা দিতে পারি ?
আমাকে কী ম্যানুয়ালি করতে হবে, বা সম্ভবত
caret
গ্ল্যামনেট মডেলগুলির জন্য এই কার্যটি কার্যকর?আমি কি ক্রস বৈধকরণের দুটি কেন্দ্রীভূত "লুপ" ব্যবহার করি? ... আমি কে-ফোল্ড ক্রস বৈধতা প্রক্রিয়াকরণের একটি "বাহ্যিক লুপ" এর প্রতিটি কে ভাঁজ মধ্যে
cv.glmnet
সর্বোত্তম ল্যাম্বদা মান নির্ধারণ করার জন্য সিভি এর একটি "অভ্যন্তরীণ লুপ" ব্যবহার করি? ?যদি আমি আমার ইতিমধ্যে ক্রস-বৈধকরণ
cv.glmnet
মডেলটির ক্রস-বৈধকরণ করি, তবে আমিcv.glmnet
ক্রস বৈধতার আমার অন্যথায় "বাহ্যিক লুপ" এর প্রতিটি ভাড়ার মধ্যে প্রতিটি মডেল থেকে "সেরা" মডেলটি ("সেরা" ল্যাম্বদা মান থেকে) কীভাবে আলাদা করব?- দ্রষ্টব্য: আমি "সেরা" মডেলটিকে লাম্বদার সাথে যুক্ত মডেল হিসাবে সংজ্ঞায়িত করছি যা ন্যূনতম 1 এসইয়ের মধ্যে এমএসই তৈরি করে ... মডেলটিতে
$lambda.1se
এটিইcv.glmnet
।
- দ্রষ্টব্য: আমি "সেরা" মডেলটিকে লাম্বদার সাথে যুক্ত মডেল হিসাবে সংজ্ঞায়িত করছি যা ন্যূনতম 1 এসইয়ের মধ্যে এমএসই তৈরি করে ... মডেলটিতে
প্রসঙ্গ:
আমি গাছের ব্যাস ("ডি"), ডি ^ 2 এবং প্রজাতির ("ফ্যাক্টর (স্পেক)") এর উপর ভিত্তি করে গাছের বয়স ("বয়স") পূর্বাভাস দেওয়ার চেষ্টা করছি। [ফলাফল সমীকরণ: Age ~ D + factor(SPEC) + D^2
]। আমার কাছে ~ 50K সারি ডেটা রয়েছে, তবে ডেটাটি দ্রাঘিমাংশের (সময়ের সাথে ব্যক্তিদের ট্র্যাক করে) এবং ~ 65 প্রজাতি নিয়ে গঠিত।