লাসোতে সঙ্কোচন প্যারামিটার বা> 50 কে ভেরিয়েবলগুলির সাথে রিজ রিগ্রেশন কীভাবে অনুমান করা যায়?


36

আমি 50,000 এর বেশি ভেরিয়েবল সহ একটি মডেলের জন্য লাসো বা রিজ রিগ্রেশন ব্যবহার করতে চাই। আমি আর তে সফ্টওয়্যার প্যাকেজ ব্যবহার করে এটি করতে চাই the সংকীর্ণ প্যারামিটার ( ) কীভাবে অনুমান করতে পারি ?λ

সম্পাদনা:

আমি এখানে পৌঁছতে পয়েন্টটি এখানে:

set.seed (123)
Y <- runif (1000)
Xv <- sample(c(1,0), size= 1000*1000,  replace = T)
X <- matrix(Xv, nrow = 1000, ncol = 1000)

mydf <- data.frame(Y, X)

require(MASS)
lm.ridge(Y ~ ., mydf)

plot(lm.ridge(Y ~ ., mydf,
              lambda = seq(0,0.1,0.001)))

এখানে চিত্র বর্ণনা লিখুন

আমার প্রশ্ন: আমার মডেলটির জন্য কোন model সবচেয়ে ভাল তা আমি কীভাবে জানতে পারি ?λ


3
স্মুথিং প্যারামিটার পরিসংখ্যানগতভাবে অনুমানযোগ্য নয় তবে সর্বাধিক-নমুনা ফিট ব্যবহার করে বাছাই করা ব্যবহার করা হচ্ছে উদাহরণস্বরূপ, ক্রস বৈধকরণ। আমার মনে হয় ল-এস-এস-এ ল্যাসো এবং রিজ রিগ্রেশন-এর জন্য স্ট্যান্ডার্ড প্যাকেজগুলি আপনার জন্য এটি করার জন্য কার্যকারিতা তৈরি করেছে - আপনি কি এটি সন্ধান করেছেন?
ম্যাক্রো

4
আমি একমত নই - আপনি একটি মিশ্র মডেল পদ্ধতির সাহায্যে স্মুথিং প্যারামিটার অনুমান করতে পারেন। রিমাল পদ্ধতিগুলি হায়ারারিকাল বেইস পদ্ধতি হিসাবে বিদ্যমান exist আপনার ব্যয়বহুল ক্রস বৈধকরণের দরকার নেই।
সম্ভাব্যতাব্লোগিক

1
@ প্রোব্যাবিলিটিস্লোগিক তথ্যের জন্য আপনাকে ধন্যবাদ। স্ক্রিপ্টের কিছু বিশদ বিবরণ থাকলে আমরা কীভাবে এটি রিমল ব্যবহার করে করতে পারি তা দুর্দান্ত হবে
জন

2
রিজ রিগ্রেশন-র লেভ-ওয়ান-আউট ক্রস-বৈধকরণ মূলত বিনামূল্যে (অ্যালেনের প্রেস স্ট্যাটিস্টিক) এবং আমি এটি একটি যুক্তিসঙ্গতভাবে ভাল পদ্ধতি বলে মনে করেছি। তবে এর সাথে বৈশিষ্ট্যযুক্ত যে কোনও পদ্ধতি আপনি ব্যবহার করতে পারবেন অস্থিতিশীল এবং সম্পূর্ণভাবে বায়সিয়ান পদ্ধতির উভয় পরামিতি এবং প্রান্তিককরণ প্যারামিটারগুলির তুলনায় প্রান্তিককরণ সম্ভবত একটি আরও নির্ভরযোগ্য সমাধান হতে পারে (যেমন আমি মনে করি সম্ভাব্যতা ব্লগ প্রস্তাব দিচ্ছিল)। যদি আপনি বায়েশিয়ান পদ্ধতিগুলি পছন্দ করেন না, তবে প্রতিটি সময় ব্যাগিং এবং পুনরায় প্রাক্কলন ব্যবহার করুন da
ডিকরান মার্সুপিয়াল

2
@ ম্যাক্রো - (18 মাস পরে প্রতিক্রিয়ার মতো কিছুই নয়)। মিশ্র মডেল পদ্ধতির মধ্যে দুটি অতিরিক্ত শর্তাদি যা শুধুমাত্র উপর নির্ভর করে আছে কিন্তু । এগুলি এবংযেখানে বিটার সংখ্যা এবং এক্স প্রেডিকটার ম্যাট্রিক্স। প্রথম শব্দটি থেকে আসে from যেখানে ত্রুটি বৈকল্পিক। দ্বিতীয় মেয়াদে একটি প্লাগিং অনিশ্চয়তা জন্য অ্যাকাউন্টে REML সংশোধন হয় । বিটা - লগ ( λ ) লগ | এক্স টি এক্স + λ আই | β ~ এন ( 0 , σ 2 λ - 1 ) σ 2 β = βλβklog(λ)log|XTX+λI|kβN(0,σ2λ1)σ2β=β^
সম্ভাব্যতাব্লোগিক

উত্তর:


25

ফাংশন cv.glmnetআর প্যাকেজ থেকে glmnet একটি গ্রিড উপর স্বয়ংক্রিয় ক্রস বৈধতা নেই জন্য ব্যবহৃত মান -penalized রিগ্রেশন সমস্যা। বিশেষত, লাসোর জন্য। গ্ল্যামনেট প্যাকেজটি আরও সাধারণ স্থিতিস্থাপক নেট জরিমানা সমর্থন করে যা এবং ৩ সংমিশ্রণ । সংস্করণ 1.7.3 হিসাবে। প্যারামিটার 0 এর সমান প্যাকেজটি রিজ রিগ্রেশন দেয় (অন্ততপক্ষে এই কার্যকারিতাটি ডকুমেন্ট করা হয়নি)।1 1 2 αλ112α

ক্রস-বৈধকরণ প্রতিটি এবং জন্য প্রত্যাশিত সাধারণীকরণ ত্রুটির একটি অনুমান সংজ্ঞাগতভাবে এই অনুমানের মিনিমাইজার হিসাবে বেছে নেওয়া যেতে পারে। ফাংশনের দুটি মানের ফেরৎ । মিনিমাইজার, এবং সর্বদা বৃহত্তর , যা কম জটিল মডেল উত্পাদন করে একটি হিরিস্টিক পছন্দ , যার জন্য আনুমানিক প্রত্যাশিত সাধারণীকরণ ত্রুটির পরিশ্রমটি সর্বনিম্নের একটি মান ত্রুটির মধ্যে error সাধারণকরণের ত্রুটি পরিমাপের জন্য ক্ষতির বিভিন্ন কার্যের বিভিন্ন পছন্দ গ্ল্যামনেট প্যাকেজে সম্ভব। যুক্তি ক্ষতির ক্রিয়া নির্দিষ্ট করে।λ λ λλλcv.glmnetλlambda.minlambda.1seλtype.measure

বিকল্পভাবে, আর প্যাকেজ এমজিসিভিতে পেনাল্টি পরামিতিগুলির স্বয়ংক্রিয় নির্বাচন সহ চতুষ্কোণিক জরিমানার সাথে অনুমানের ব্যাপক সম্ভাবনা রয়েছে। কার্যকর করা পদ্ধতিগুলির মধ্যে জেনারেলাইজড ক্রস-বৈধকরণ এবং আরএমএল অন্তর্ভুক্ত রয়েছে, যেমনটি একটি মন্তব্যে উল্লিখিত হয়েছে। আরও বিশদ বিবরণ প্যাকেজ লেখকদের বইতে পাওয়া যাবে: উড, এসএন (2006) সাধারণীকরণমূলক মডেল: আর, সিআরসি সহ একটি ভূমিকা।


1
cv.glmnetλlambda.minlambda.1se

@ সিএল, পরামর্শের জন্য ধন্যবাদ। আমার এটি যোগ করা উচিত ছিল।
এনআরএইচ

15

এই উত্তরটি ম্যাটল্যাব নির্দিষ্ট, তবে, আর-এর সাথে আপনি যা ব্যবহার করছেন তার সাথে প্রাথমিক ধারণাগুলির সাথে বেশ মিল থাকতে হবে ...

ম্যাটল্যাবের ক্ষেত্রে আপনার কাছে ক্রস বৈধকরণ সক্ষম করে লাসো চালানোর বিকল্প রয়েছে।

আপনি যদি এটি করেন তবে লাসো ফাংশন দুটি সমালোচনামূলক পরামিতি মানগুলি রিপোর্ট করবে

  1. ল্যাম্বডা মান যা ক্রসকে বৈধতাযুক্ত মানে স্কোয়ার ত্রুটিটি হ্রাস করে
  2. সংক্ষিপ্তকরণের সর্বাধিক পরিমাণ সহ ল্যাম্বদা মান যার সিভিএমএসই সর্বনিম্নের এক মান ত্রুটির মধ্যে।

এছাড়াও আপনি একটি দুর্দান্ত ছোট্ট চার্ট পাবেন যা আপনি ল্যাম্বদা এবং সিভিএমএসইয়ের মধ্যে সম্পর্কটি নিরীক্ষণের জন্য ব্যবহার করতে পারেন

এখানে চিত্র বর্ণনা লিখুন

সাধারণভাবে, আপনি লাম্বদা একটি মান চয়ন করেছেন যা নীল রেখা এবং সবুজ লাইনের মধ্যে পড়ে।

নিম্নলিখিত ব্লগ পোস্টে কিছু উদাহরণের উপর ভিত্তি করে কিছু ডেমো কোড অন্তর্ভুক্ত

তিবশিরানী, আর। (1996)। পাদদেশ সংকোচন এবং lasso মাধ্যমে নির্বাচন। জে রয়্যাল পরিসংখ্যানবিৎ। সোস বি, ভোল। 58, নং 1, পৃষ্ঠা 267-288)।

http://blogs.mathworks.com/loren/2011/11/29/subset-selection-and-regularization-part-2/


আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.