আমি ভাবছি যে কীভাবে আর এ গ্ল্যামনেট ব্যবহার করে কোনও লাসো মডেলকে সঠিকভাবে প্রশিক্ষণ এবং পরীক্ষা করতে হবে?
- বিশেষত, আমি ভাবছি যে যদি বাহ্যিক পরীক্ষার ডেটা সেটের অভাবে আমার লাসো মডেলটি পরীক্ষা করতে আমি ক্রস-বৈধকরণ (বা অন্যান্য অনুরূপ পদ্ধতির) ব্যবহার করি তবে এটি কীভাবে করবেন তা আমি ভাবছি ।
আমাকে আমার পরিস্থিতি ভেঙে দিন:
আমার গ্ল্যামনেট মডেলটি জানান এবং প্রশিক্ষণের জন্য আমার কাছে কেবল একটি ডেটা সেট রয়েছে। ফলস্বরূপ, আমার মডেলটি পরীক্ষা করার উপায় তৈরি করতে আমার ডেটা বিভক্ত করতে আমাকে ক্রস-বৈধতা ব্যবহার করতে হবে।
আমি ইতিমধ্যে ব্যবহার করছি cv.glmnet, যা প্যাকেজ বিবরণ অনুযায়ী :
গ্ল্যামনেটের জন্য কে-ভাঁজ ক্রস-বৈধতা দেয়, একটি প্লট তৈরি করে এবং ল্যাম্বদার জন্য একটি মান প্রদান করে।
ক্রস-বৈধকরণটি
cv.glmnetকেবল সেরা ল্যাম্বডা বাছাই করার জন্য সম্পাদিত হয় , বা এটি আরও সাধারণ ক্রস-বৈধকরণ পদ্ধতি হিসাবে পরিবেশন করছে?- অন্য কথায়, আমার মডেলটির "পরীক্ষা" চালানোর জন্য এখনও আমার কি অন্য ক্রস-বৈধতা পদক্ষেপ করা দরকার?
"হ্যাঁ আমি করি" এই ধারণা নিয়ে কাজ করছি।
এটি হ'ল, আমি কীভাবে আমার cv.glmnetমডেলকে বৈধতা দিতে পারি ?
আমাকে কী ম্যানুয়ালি করতে হবে, বা সম্ভবত
caretগ্ল্যামনেট মডেলগুলির জন্য এই কার্যটি কার্যকর?আমি কি ক্রস বৈধকরণের দুটি কেন্দ্রীভূত "লুপ" ব্যবহার করি? ... আমি কে-ফোল্ড ক্রস বৈধতা প্রক্রিয়াকরণের একটি "বাহ্যিক লুপ" এর প্রতিটি কে ভাঁজ মধ্যে
cv.glmnetসর্বোত্তম ল্যাম্বদা মান নির্ধারণ করার জন্য সিভি এর একটি "অভ্যন্তরীণ লুপ" ব্যবহার করি? ?যদি আমি আমার ইতিমধ্যে ক্রস-বৈধকরণ
cv.glmnetমডেলটির ক্রস-বৈধকরণ করি, তবে আমিcv.glmnetক্রস বৈধতার আমার অন্যথায় "বাহ্যিক লুপ" এর প্রতিটি ভাড়ার মধ্যে প্রতিটি মডেল থেকে "সেরা" মডেলটি ("সেরা" ল্যাম্বদা মান থেকে) কীভাবে আলাদা করব?- দ্রষ্টব্য: আমি "সেরা" মডেলটিকে লাম্বদার সাথে যুক্ত মডেল হিসাবে সংজ্ঞায়িত করছি যা ন্যূনতম 1 এসইয়ের মধ্যে এমএসই তৈরি করে ... মডেলটিতে
$lambda.1seএটিইcv.glmnet।
- দ্রষ্টব্য: আমি "সেরা" মডেলটিকে লাম্বদার সাথে যুক্ত মডেল হিসাবে সংজ্ঞায়িত করছি যা ন্যূনতম 1 এসইয়ের মধ্যে এমএসই তৈরি করে ... মডেলটিতে
প্রসঙ্গ:
আমি গাছের ব্যাস ("ডি"), ডি ^ 2 এবং প্রজাতির ("ফ্যাক্টর (স্পেক)") এর উপর ভিত্তি করে গাছের বয়স ("বয়স") পূর্বাভাস দেওয়ার চেষ্টা করছি। [ফলাফল সমীকরণ: Age ~ D + factor(SPEC) + D^2]। আমার কাছে ~ 50K সারি ডেটা রয়েছে, তবে ডেটাটি দ্রাঘিমাংশের (সময়ের সাথে ব্যক্তিদের ট্র্যাক করে) এবং ~ 65 প্রজাতি নিয়ে গঠিত।