গ্ল্যামনেট ব্যবহার করে লাসোর ফলাফল কীভাবে উপস্থাপন করবেন?


40

আমি 30 টি স্বতন্ত্র ভেরিয়েবলের সেট থেকে অবিচ্ছিন্ন নির্ভরশীল ভেরিয়েবলের জন্য ভবিষ্যদ্বাণী খুঁজে পেতে চাই। আমি আরএস এর গ্ল্যামনেট প্যাকেজে প্রয়োগ হিসাবে লাসো রিগ্রেশন ব্যবহার করছি some এখানে কিছু ডামি কোড রয়েছে:

# generate a dummy dataset with 30 predictors (10 useful & 20 useless) 
y=rnorm(100)
x1=matrix(rnorm(100*20),100,20)
x2=matrix(y+rnorm(100*10),100,10)
x=cbind(x1,x2)

# use crossvalidation to find the best lambda
library(glmnet)
cv <- cv.glmnet(x,y,alpha=1,nfolds=10)
l <- cv$lambda.min
alpha=1

# fit the model
fits <- glmnet( x, y, family="gaussian", alpha=alpha, nlambda=100)
res <- predict(fits, s=l, type="coefficients")
res 

আমার প্রশ্নগুলি কীভাবে আউটপুটটি ব্যাখ্যা করবেন:

  • এটি কি ঠিক বলা যায় যে চূড়ান্ত আউটপুটে শূন্যের থেকে পৃথক সহগ দেখায় এমন সমস্ত ভবিষ্যদ্বাণী নির্ভরশীল চলকের সাথে সম্পর্কিত?

  • এটি কি কোনও জার্নাল প্রকাশের প্রসঙ্গে পর্যাপ্ত প্রতিবেদন হতে পারে? বা সহগের তাত্পর্যটির জন্য পরীক্ষা-পরিসংখ্যান সরবরাহ করা আশা করা যায়? (প্রসঙ্গটি মানব জেনেটিক্স)

  • তাৎপর্য দাবি করার জন্য পি-মান বা অন্যান্য পরীক্ষা-পরিসংখ্যান গণনা করা কি যুক্তিসঙ্গত? কীভাবে সম্ভব হবে? কোনও পদ্ধতি কি আর-তে প্রয়োগ করা হয়?

  • প্রতিটি ভবিষ্যদ্বাণীকের জন্য কোনও সাধারণ রিগ্রেশন প্লট (ডেটা পয়েন্টগুলি লিনিয়ার ফিটের সাথে প্লট করা) এই ডেটাটি ভিজ্যুয়ালাইজ করার উপযুক্ত উপায় হতে পারে?

  • হতে পারে যে কোনও বাস্তব তথ্য উপাত্তের প্রসঙ্গে লাসোর ব্যবহার দেখানো প্রকাশিত নিবন্ধগুলির কয়েকটি সহজ উদাহরণ সরবরাহ করতে পারে এবং এটি একটি জার্নালে কীভাবে রিপোর্ট করবেন?


আপনি "মডেল ফিট করুন" বিভাগের অধীনে গ্ল্যামনেট চালাচ্ছেন কেন? আপনি কি cvভবিষ্যদ্বাণী পদক্ষেপের জন্যও ব্যবহার করতে পারবেন না ?
বোরবাকি 4481472

উত্তর:


22

আমার বোধগম্যতা হল যে ভেরিয়েবলগুলি "গুরুত্বপূর্ণ" বা তাদের সহগগুলি ননজারো কিনা তার ভিত্তিতে "সত্য" প্রভাব রয়েছে সে সম্পর্কে আপনি অগত্যা বেশি কিছু বলতে পারবেন না। একটি চূড়ান্ত উদাহরণ দেওয়ার জন্য, যদি আপনার কাছে দুটি ভবিষ্যদ্বাণী থাকে যা পুরোপুরি কলিনারি হয় তবে লাসো পুরো ওজন পেতে এলোমেলোভাবে তাদের মধ্যে একটি বেছে নেবে এবং অন্যটি শূন্য ওজন পাবে।

এই কাগজটিতে গ্ল্যামনেটের অন্যতম লেখক অন্তর্ভুক্ত রয়েছে, যা কিছু গ্ল্যামনেট-ভিত্তিক বিশ্লেষণ উপস্থাপন করে (বিশেষত: পরিচিতি, বিভাগ ২.৩ এবং ৪.৩, এবং সারণী ৪ এবং ৫)। ঝলক দিয়ে দেখে মনে হচ্ছে তারা সরাসরি গ্ল্যামনেট মডেল থেকে পি-মূল্যবান গণনা করেনি। তারা অন্যান্য পদ্ধতি ব্যবহার করে দুটি ভিন্ন ধরণের পি-মানগুলি গণনা করেছিল তবে তারা এগুলির কোনওটির উপরেই পুরোপুরি বিশ্বাস রাখে বলে মনে হয় না।

প্লট করার পদ্ধতিগুলির ক্ষেত্রে আপনি কী পরামর্শ দিচ্ছেন তা আমি 100% নিশ্চিত নই, তবে আমার কাছে এটি যুক্তিসঙ্গত বলে মনে হয়।

আশা করি এইটি কাজ করবে.


1
হাই ডেভিড! উত্তরের জন্য ধন্যবাদ. শূন্য-সহগের সাথে ভবিষ্যদ্বাণীকারী নির্বাচনের জন্য লাসো ব্যবহারের বিরুদ্ধে কিছু কথা বলতে পারে এবং তারপরেই কেবলমাত্র সেই ভবিষ্যদ্বাণীকারীকে লিনিয়ার রিগ্রেশন মডেল ব্যবহার করে শিকারীদের তাত্পর্য সম্পর্কিত পি-মানগুলি অর্জন করতে পারে। যেমন এই কাগজ হিসাবে: ncbi.nlm.nih.gov/pmc/articles/PMC3412288
জোকেল

4
@ জোকেল আমি মনে করি আপনি যা পরামর্শ দিচ্ছেন এটি "রিল্যাক্সড লাসো" এর একটি বিশেষ ক্ষেত্রে এবং এটি কিছু উদ্দেশ্যে খুব ভাল কাজ করতে পারে। আমি নিশ্চিত নই যে আপনি বর্ণিত পদ্ধতি থেকে আপনি যে-পি-ভ্যালুগুলি পেয়েছেন তা আপনি বিশ্বাস করতে পারবেন, যদিও আপনার এফ পরিসংখ্যান বা টি-স্ট্যাটিস্টিক আপনার দ্বারা পরিবর্তনশীল নির্বাচনের পদক্ষেপ সম্পর্কে "জানতে পারবেন না" এবং প্রকার -1 ত্রুটির হার স্ফীত হবে। এ সম্পর্কে চিন্তা করার এক উপায়: স্বাধীনতার ডিগ্রির সঠিক সংখ্যাটি কোনও এফ পরিসংখ্যানের জন্য কী হবে? লাসো রিগ্রেশন-এ মোট চলক সংখ্যা? সেকেন্ডারি রিগ্রেশনে ভেরিয়েবলের সংখ্যা? এর মধ্যে কিছু?
ডেভিড জে হ্যারিস

সত্য - সুতরাং এটি কোনও বৈধ পদ্ধতির বলে মনে হয় না। 300 টি স্বতন্ত্র ভেরিয়েবলগুলির মধ্যে উল্লেখযোগ্য ভবিষ্যদ্বাণীকারীদের কীভাবে খুঁজে পাওয়া যায় (এন >> পি উপরের উদাহরণটির মতো) আপনার কী অন্য কোনও ধারণা আছে? যাতে শেষ পর্যন্ত আমি দাবি করতে সক্ষম হব: "ভবিষ্যদ্বাণীকারী এক্স নির্ভরশীল পরিবর্তনশীল ওয়াইয়ের সাথে উল্লেখযোগ্যভাবে সম্পর্কিত?"
জোকেল

আমার হিসাবগুলি কীভাবে করতে হয় তা আমি জানি না এমন স্থানে র্যান্ডমাইজেশন করা। একটি সম্ভাবনা হ'ল আপনার ডেটা সেট (যেমন বুটস্ট্র্যাপিং সহ) এর সারিগুলি পুনরায় মডেল করা এবং বারবার ল্যাসো বিশ্লেষণ চালানো। ভেরিয়েবলটি প্রায়শই মডেলটিতে অন্তর্ভুক্ত করা হয়, তত বেশি গুরুত্বপূর্ণ হওয়ার সম্ভাবনা থাকে। এর চেয়েও ভাল বিকল্পের মধ্যে সারি এবং কলামগুলিকে স্যামিলিং জড়িত থাকতে পারে , যা "মাস্কিং" প্রভাবগুলি এড়াতে সহায়তা করতে পারে। ব্রেইমান [এই পিডিএফ] (চিত্র 2 এর নিকটে) ( অনুষদ.স্মু.ইডু / টফম্বি / একো 5৩85৫ / নির্বাচন / ) ) তে অনুরূপ শিরাতে কিছু পরামর্শ দেয় ।
ডেভিড জে হ্যারিস

9

আমি কেবল এটিই উল্লেখ করতে চেয়েছিলাম যে লাসোর জন্য বিশেষত একটি পরীক্ষা সংক্রান্ত পরিসংখ্যান বিকাশের চেষ্টা চলছে, যা বৈশিষ্ট্য নির্বাচন সম্পাদন করে তা বিবেচনা করে:

লাসোর জন্য একটি তাত্পর্য পরীক্ষা। রিচার্ড লকহার্ট, জনাথন টেলর, রায়ান জে টিবশিরানী, রবার্ট তিবশিরানী। http://arxiv.org/abs/1301.7161

আমি প্রয়োগের কাজে এটি এখনও ব্যবহার করতে দেখিনি, যদিও বুটস্ট্র্যাপিং অবশ্যই ব্যবহৃত হয়।


0

লাসো বা ইলাস্টিক নেট মডেলগুলির জন্য অনুমান সম্পর্কে CRAN প্যাকেজগুলি বেছে বেছে বেছে দেখুন এবং এইচডি , তারা ভেরিয়েবল সিলেকশন পদক্ষেপটি বিবেচনায় নিয়ে ঠিক সেই কাজটি করে!

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.