জটিল সমীক্ষার তথ্যগুলিতে লাসোর পরে বৈধতা


11

আমি ধারাবাহিক ফলাফলের সাথে লাসো ব্যবহার করে কিছু প্রার্থী ভবিষ্যদ্বাণীদের মডেল নির্বাচন করার চেষ্টা করছি। লক্ষ্যটি হল সেরা পূর্বাভাসের পারফরম্যান্স সহ অনুকূল মডেল নির্বাচন করা, যা সাধারণত ল্যাসো থেকে টিউনিং পরামিতিগুলির সমাধানের পথ অর্জনের পরে কে-ফোল্ড ক্রস বৈধকরণের মাধ্যমে করা যেতে পারে। এখানে সমস্যাটি হ'ল ডেটাটি একটি জটিল মাল্টি-স্টেজ জরিপ ডিজাইন (এনএইচএনইএস) থেকে, ক্লাস্টারের স্যাম্পলিং এবং স্তরবিন্যাস সহ। অনুমানের অংশটি শক্ত নয় কারণ glmnetআর-এ নমুনা ওজন নিতে পারে। তবে ক্রস বৈধকরণ অংশটি আমার কাছে কম স্পষ্ট যেহেতু পর্যবেক্ষণগুলি এখন আর আইড নয়, এবং পদ্ধতিটি কীভাবে সীমাবদ্ধ জনগণের প্রতিনিধিত্ব করে ওজন নমুনা দেওয়ার জন্য অ্যাকাউন্ট হতে পারে?

সুতরাং আমার প্রশ্নগুলি হ'ল:

1) অনুকূল টিউনিং প্যারামিটারটি নির্বাচন করতে জটিল জরিপের ডেটা দিয়ে কে-ফোল্ড ক্রস বৈধকরণ কীভাবে সম্পাদন করবেন? আরও নির্দিষ্টভাবে, কীভাবে প্রশিক্ষণ এবং বৈধতা সেটগুলিতে নমুনা ডেটাটি যথাযথভাবে ভাগ করা যায়? এবং পূর্বাভাস ত্রুটির অনুমানটি কীভাবে সংজ্ঞায়িত করা যায়?

2) অনুকূল টিউনিং প্যারামিটারটি নির্বাচন করার কোনও বিকল্প উপায় আছে কি?


হয়তো পুনরায় মডেলিং (উদাহরণস্বরূপ বুটস্ট্র্যাপ) কে ভাঁজ সিভির পরিবর্তে আরও উপযুক্ত পদ্ধতি হবে?
g3o2

লুমলে সতর্ক করে দিয়েছে যে "বুটস্ট্র্যাপের জন্য তত্ত্বটি প্রতিটি স্তরের মধ্যে সমান সম্ভাবনার নমুনা তৈরির পরিস্থিতির জন্য তৈরি করা হয়েছিল, এটি নির্বিচার সম্ভাবনার সাথে কতটা ভাল কাজ করবে তা পরিষ্কার নয়।" (২৮) NHANES ডেটা স্তরের মধ্যে সমান সম্ভাবনার নমুনা বলে মনে হয় না।
ড্যান হিক্স

ওপি থেকে এই সামান্য বিস্তারিত জানার জন্য আকর্ষণীয় হবে। মাল্টিস্টেজ ক্লাস্টার এবং স্তরিত নমুনা সম্পর্কে কী জটিল হবে তা দেখুন না ...
g3o2

@ ড্যান হিকস: আমি মনে করি না যে এটি সত্যিকার অর্থে গুরুত্বপূর্ণ, পুনর্নির্মাণের সময় আপনি একই নমুনা পরিকল্পনার একাধিক উদাহরণগুলি প্রতিলিপি করেন।
g3o2

এখানে বর্ণিত পদ্ধতিগুলির মতো কিছু ব্যবহার করছেন? amstat.tandfonline.com/doi/pdf/10.1080/01621459.1988.10478591 (বা আরও সাম্প্রতিক কিছু?) আপনি যদি উত্তর হিসাবে কিছুটা আরও বিশদ দিয়ে এই ধারণাটি লিখতে চান তবে আমি আপনাকে অনুগ্রহটি দেব।
ড্যান হিক্স

উত্তর:


2

আমার বিশদ উত্তর নেই, কেবলমাত্র কিছু পয়েন্টার কাজ করার জন্য যা আমি পড়ার অর্থ করছি:

জটিল-সমীক্ষা লাসো সম্পর্কে আপনি ম্যাককনভিলে (২০১১) একবার দেখে নিতে পারেন , এটি নিশ্চিত করতে আপনার ল্যাসো আপনার ব্যবহারের জন্য উপযুক্ত কিনা। তবে আপনি যদি কেবল ভেরিয়েবল নির্বাচনের জন্য লাসো করছেন, তবে অবশিষ্ট ভেরিয়েবলের সাথে অন্য কোনও জিনিস লাগানো সম্ভবত এটি কোনও বড় বিষয় নয়।

জটিল সমীক্ষার ডেটা (যদিও লাসো নয়) সহ ক্রস-বৈধতার জন্য ম্যাককনভিলে ওপসোমার এবং মিলার (২০০৫) এবং আপনি (২০০৯) উদ্ধৃত করেছেন । তবে তাদের পদ্ধতিগুলি কে-ফোল্ড নয়, লেভ-ওয়ান-আউট সিভি ব্যবহার করছে বলে মনে হচ্ছে।

জটিল জরিপগুলি প্রয়োগ করে লভ-ওয়ান-আউট সহজ হওয়া উচিত --- কীভাবে সঠিকভাবে ডেটা ভাগ করা যায় সে সম্পর্কে কম উদ্বেগ নেই। (অন্যদিকে, কে-ফোল্ডের চেয়ে দৌড়াতে আরও বেশি সময় লাগতে পারে And এবং যদি আপনার লক্ষ্যটি মডেল নির্বাচন হয় তবে এটি জানা যায় যে বড় নমুনাগুলির জন্য লে-ওয়ান-আউট কে-ফোল্ডের চেয়েও খারাপ হতে পারে))


0

ওপি দ্বারা সম্পাদনা: জটিল জরিপের তথ্য প্রযোজ্য নয়।

Cv.glmet ফাংশন আপনাকে প্রয়োজনীয় ক্রস বৈধকরণ সম্পাদন করতে সহায়তা করতে পারে। ল্যাম্বদা.মিন মানটি λ এর মান যেখানে সিভি ত্রুটি সর্বনিম্ন। ল্যাম্বডা .১ সন্ধানে λ এর মান উপস্থাপন করে যা সেরা মডেল (ল্যাম্বদা.মিন) এর চেয়ে সহজ ছিল, তবে এতে সেরা মডেলের 1 স্ট্যান্ডার্ড ত্রুটির মধ্যে ত্রুটি রয়েছে।

  1. আলফা এবং ল্যাম্বডা উভয়ের জন্য আপনি যে মানগুলি চয়ন করতে পারেন তার গ্রিড চয়ন করুন

গ্রিড <- বিস্তৃত।

  1. আপনার মডেলের নিয়ন্ত্রণ পরামিতিগুলি সেটআপ করুন। নীচের ট্রেন নিয়ন্ত্রণ 10 পুনরাবৃত্তির জন্য পুনরাবৃত্তি করে। উপলব্ধ পদ্ধতিগুলি দেখুন এবং আপনার বর্তমান দৃশ্যের সাথে খাপ খায় এমন একটি চয়ন করুন।

cv.glmmod <-cv.glmnet (xTrain, y = yTrain, alpha = grid .lambda).alpha,>=T,lambda=grid

ল্যাম্বডা.মিন মানটি নীচের চিত্রের মতোই মডেল থেকে অ্যাক্সেস করা যেতে পারে।

cv.glmmod $ lambda.min


1
আমি জানি যে গ্ল্যামনেট ব্যবহার করে আইডির জন্য ক্রস বৈধকরণ কীভাবে করা যায়। আমি সম্পর্কযুক্ত জটিল সমীক্ষার তথ্য সম্পর্কে জিজ্ঞাসা করছিলাম।
অ্যানিমা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.