আমি ধারাবাহিক ফলাফলের সাথে লাসো ব্যবহার করে কিছু প্রার্থী ভবিষ্যদ্বাণীদের মডেল নির্বাচন করার চেষ্টা করছি। লক্ষ্যটি হল সেরা পূর্বাভাসের পারফরম্যান্স সহ অনুকূল মডেল নির্বাচন করা, যা সাধারণত ল্যাসো থেকে টিউনিং পরামিতিগুলির সমাধানের পথ অর্জনের পরে কে-ফোল্ড ক্রস বৈধকরণের মাধ্যমে করা যেতে পারে। এখানে সমস্যাটি হ'ল ডেটাটি একটি জটিল মাল্টি-স্টেজ জরিপ ডিজাইন (এনএইচএনইএস) থেকে, ক্লাস্টারের স্যাম্পলিং এবং স্তরবিন্যাস সহ। অনুমানের অংশটি শক্ত নয় কারণ glmnetআর-এ নমুনা ওজন নিতে পারে। তবে ক্রস বৈধকরণ অংশটি আমার কাছে কম স্পষ্ট যেহেতু পর্যবেক্ষণগুলি এখন আর আইড নয়, এবং পদ্ধতিটি কীভাবে সীমাবদ্ধ জনগণের প্রতিনিধিত্ব করে ওজন নমুনা দেওয়ার জন্য অ্যাকাউন্ট হতে পারে?
সুতরাং আমার প্রশ্নগুলি হ'ল:
1) অনুকূল টিউনিং প্যারামিটারটি নির্বাচন করতে জটিল জরিপের ডেটা দিয়ে কে-ফোল্ড ক্রস বৈধকরণ কীভাবে সম্পাদন করবেন? আরও নির্দিষ্টভাবে, কীভাবে প্রশিক্ষণ এবং বৈধতা সেটগুলিতে নমুনা ডেটাটি যথাযথভাবে ভাগ করা যায়? এবং পূর্বাভাস ত্রুটির অনুমানটি কীভাবে সংজ্ঞায়িত করা যায়?
2) অনুকূল টিউনিং প্যারামিটারটি নির্বাচন করার কোনও বিকল্প উপায় আছে কি?