সেটিং-এ রিগ্রেশন : নিয়মিতকরণ পদ্ধতি কীভাবে বেছে নেবেন (লাসো, পিএলএস, পিসিআর, রিজ)?


15

আমি দেখতে কিনা যাওয়ার জন্য চেষ্টা করছি শৈলশিরা রিগ্রেশন , Lasso , প্রধান উপাদান রিগ্রেশন (পিসিআর), অথবা আংশিক লিস্ট স্কোয়ার যেখানে ভেরিয়েবল / বৈশিষ্ট্য (এর সংখ্যক আছে একটি পরিস্থিতির মধ্যে (পিএলএস) ) এবং নমুনা ছোট নম্বর ( এন < পি ), এবং আমার উদ্দেশ্যটি পূর্বাভাস।pn<p

এটি আমার বোঝার:

  1. রিজ রিগ্রেশন রিগ্রেশন কোফিয়েনিয়েন্টগুলি সঙ্কুচিত করে, কিন্তু সমস্ত সহগকে সেগুলি0

  2. লাসো সহগকে সংকুচিত করে, তবে তাদের তোলেযার অর্থ এটি পরিবর্তনশীল নির্বাচনও করতে পারে।0

  3. অধ্যক্ষ উপাদান উপাদান রিগ্রেশন উপাদানগুলি কেটে দেয় যাতে এন থেকে কম হয় ; এটি পি - এন উপাদানগুলি ফেলে দেবে ।pnpn

  4. আংশিক সর্বনিম্ন বর্গক্ষেত্রও রিগ্রেশনের জন্য ইনপুটগুলির লিনিয়ার সংমিশ্রণের একটি সেট তৈরি করে, তবে পিসিআর এর বিপরীতে এটি মাত্রা হ্রাসের জন্য ( এক্স ছাড়াও ) ব্যবহার করে। পিসিআর এবং পিএলএস রিগ্রেশন-এর মধ্যে প্রধান ব্যবহারিক পার্থক্য হ'ল একই পূর্বাভাস ত্রুটি অর্জনের জন্য পিসিআর প্রায়শই পিএলএসের চেয়ে বেশি উপাদান প্রয়োজন ( এখানে দেখুন )।yX

নিম্নলিখিত ডামি ডেটা বিবেচনা করুন (আমি যে আসল ডেটা নিয়ে কাজ করার চেষ্টা করছি তা একই রকম):

#random population of 200 subjects with 1000 variables 

M <- matrix(rep(0,200*100),200,1000)
for (i in 1:200) {
set.seed(i)
  M[i,] <- ifelse(runif(1000)<0.5,-1,1)
}
rownames(M) <- 1:200

#random yvars 
set.seed(1234)
u <- rnorm(1000)
g <- as.vector(crossprod(t(M),u))
h2 <- 0.5 
set.seed(234)
y <- g + rnorm(200,mean=0,sd=sqrt((1-h2)/h2*var(g)))

myd <- data.frame(y=y, M)

চারটি পদ্ধতির প্রয়োগ:

 require(glmnet)

 # LASSO 
 fit1=glmnet(M,y, family="gaussian", alpha=1)

 # Ridge   
 fit1=glmnet(M,y, family="gaussian", alpha=0)

 # PLS
 require(pls)
 fit3 <- plsr(y ~ ., ncomp = 198, data = myd, validation = "LOO")
 # taking 198 components and using leave-one-out cross validation 
 summary(fit3)
 plot(RMSEP(fit3), legendpos = "topright")

 # PCR 
 fit4 <- pcr(y ~ ., ncomp = 198, data = myd, validation = "LOO")

তথ্যটির সর্বোত্তম বিবরণ হ'ল:

  1. , বেশিরভাগ বার p > 10 এন ;p>np>10n

  2. ভেরিয়েবল ( এবং ওয়াই ) একে অপরের সাথে বিভিন্ন ডিগ্রি সহ সম্পর্কযুক্তXY

আমার প্রশ্ন এই কৌশলটির জন্য কোন কৌশলটি সেরা হতে পারে? কেন?


6
আমার কাছে উত্তর নেই, তবে পরিসংখ্যান শিক্ষার উপাদানগুলির অধ্যায় 18 এই বিষয়টিতে উত্সর্গীকৃত এবং আমি মনে করি, আপনি যে কৌশলগুলি উল্লেখ করেছেন তার সমস্তগুলি কভার করে।
শ্যাডটলকার 19


@ এসএসডেকট্রোল আপনার পোস্ট করা বইটির জন্য আপনাকে ধন্যবাদ। এত সহায়ক
ক্রিস্টিনা

উত্তর:


30

আমি মনে করি আপনার প্রশ্নের কোনও উত্তর নেই - এটি অনেক পরিস্থিতি, ডেটা এবং আপনি যা করার চেষ্টা করছেন তার উপর নির্ভর করে depends লক্ষ্য অর্জনের জন্য কিছু সংশোধন করা বা সংশোধন করা উচিত। তবে নিম্নলিখিত সাধারণ আলোচনা সাহায্য করতে পারে।

আরও উন্নত পদ্ধতিতে ঝাঁপ দেওয়ার আগে প্রথমে বেসিক মডেলটি নিয়ে আলোচনা করা যাক: ন্যূনতম স্কোয়ারস (এলএস) রিগ্রেশন । পূর্ণ মডেলের প্যারামিটারগুলির কমপক্ষে স্কোয়ারের অনুমানটি সন্তোষজনক না হওয়ার দুটি কারণ রয়েছে:

  1. পূর্বাভাসের গুণমান: স্বল্প স্কোয়ারের অনুমানগুলিতে প্রায়শই একটি ছোট পক্ষপাত থাকে তবে উচ্চতর বৈকল্পিক থাকে। রিগ্রেশন কোফ ients সেন্টেন্টগুলি সঙ্কুচিত করে বা শূন্যের সমান কিছু কো-সেন্টিয়েন্ট সেট করে ভবিষ্যদ্বাণীটির গুণমানটি উন্নত করা যায়। এইভাবে পক্ষপাত বাড়ায়, তবে ভবিষ্যদ্বাণীটির বৈকল্পিকতা উল্লেখযোগ্যভাবে হ্রাস পায় যা সামগ্রিক উন্নত পূর্বাভাসের দিকে পরিচালিত করে। পক্ষপাত এবং বৈকল্পিকের মধ্যে এই ট্রেডো -কে সহজেই গড় স্কোয়ারড ত্রুটি (এমএসই) পচন করে সহজেই দেখা যায় একটি ছোট এমএসই নতুন মানগুলির আরও ভাল পূর্বাভাস দেয় to

  2. ব্যাখ্যামূলকতা : যদি অনেক পূর্বাভাসকারী ভেরিয়েবল উপলব্ধ থাকে তবে ence ইউনেসে সবচেয়ে বেশি রয়েছে এমনগুলি চিহ্নিত করতে এবং ভবিষ্যদ্বাণীটির জন্য প্রাসঙ্গিক নয় এমনগুলি শূন্যে সেট করা অর্থবোধ করে। সুতরাং আমরা ভেরিয়েবলগুলি মুছে ফেলি যা কেবলমাত্র কিছু বিশদ ব্যাখ্যা করবে, তবে আমরা সেইগুলি রাখি যা প্রতিক্রিয়া ভেরিয়েবলের প্রধান ব্যাখ্যাটির জন্য অনুমতি দেয়।

এইভাবে পরিবর্তনশীল নির্বাচনের পদ্ধতিগুলি দৃশ্যে আসে। ভেরিয়েবল নির্বাচনের সাথে সমস্ত ইনপুট ভেরিয়েবলের একটি উপসেট ব্যবহার করা হয়, বাকিটি মডেল থেকে মুছে ফেলা হয়। শ্রেষ্ঠ উপসেট রিগ্রেশন ফাই আকারের উপসেট এনডিএস প্রত্যেকের জন্য { 0 , 1 , , পি } যা সবচেয়ে ছোট আরএসএস দেয়। একটি ই-সেন্টিয়েন্ট অ্যালগরিদম হ'ল তথাকথিত লিপস এবং বাউন্ডস অ্যালগোরিদম যা 30 পর্যন্ত হ্যান্ডেল করতে পারে বা ইনপুট ভেরিয়েবলগুলি সমস্ত সম্ভাব্য সাবসেটের মাধ্যমে অনুসন্ধান অনিবার্য হয়ে যায়। এভাবে ধাপে ধাপে এগিয়েkk{0,1,...,p}304040n>pp খুব বেশি ।

βzk,k=1,2,...,qxj যা পরে রিগ্রেশন ইনপুট হিসাবে ব্যবহৃত হয়।

পদ্ধতিগুলি কীভাবে রৈখিক সংমিশ্রণগুলি তৈরি করা হয় তা নির্ধারণ করে। প্রিন্সিপাল উপাদান রিগ্রেশন (পিসিআর) সম্পর্কহীন ভেরিয়েবল একটি নতুন সেট মধ্যে মূল ডেটা রূপান্তরের জন্য দেখায় নামক প্রধান উপাদান

yXyXβγγqp । পিএলএস ভারিত সংস্করণে একটি রিগ্রেশন করেXyy

λ0λ যত বেশি, সঙ্কুচিত হওয়ার পরিমাণ তত বেশি। শঙ্কুগুলি শূন্যের দিকে সঙ্কুচিত হয় (এবং একে অপরের দিকে)।

ββ

Xpq

Yiএল 1 এবং এল 2 এর মধ্যে পার্থক্যটি কেবল এটিই যে এল 2 ওজনগুলির বর্গের সমষ্টি, যখন এল 1 হ'ল ওজনের যোগফল। এল 1-আদর্শ বিচ্ছিন্ন সহগ উত্পাদন করতে ঝোঁকায় এবং এতে অন্তর্নির্মিত বৈশিষ্ট্য নির্বাচন রয়েছে । এল 1-আদর্শের বিশ্লেষণাত্মক সমাধান নেই তবে এল 2-আদর্শ রয়েছে। এটি এল 2-আদর্শ সমাধানগুলি কম্পিউটেশনাল দক্ষতার সাথে গণনা করার অনুমতি দেয়। এল 1-আদর্শের অনন্য সমাধান রয়েছে যখন এল 1-আদর্শটি করে না।

s0s adaptly প্রত্যাশিত ভবিষ্যদ্বাণী ত্রুটির একটি অনুমান কমানোর জন্য মনোনীত করা উচিত।

pN

অধ্যক্ষ উপাদান বিশ্লেষণ এমন একটি বৈশিষ্ট্যগুলির লিনিয়ার সংমিশ্রণগুলি খুঁজে পাওয়ার জন্য কার্যকর পদ্ধতি যা কোনও ডেটাসেটে বড় প্রকরণের প্রদর্শন করে। তবে আমরা এখানে যা খুঁজছি তা হ'ল উচ্চতর বৈকল্পিক এবং ফলাফলের সাথে উল্লেখযোগ্য পারস্পরিক সম্পর্ক উভয়ের সাথে লিনিয়ার সংমিশ্রণ। সুতরাং আমরা ফলাফলের সাথে উচ্চতর সম্পর্কযুক্ত বৈশিষ্ট্যগুলির রৈখিক সংমিশ্রণগুলি সন্ধানের জন্য মূল উপাদান বিশ্লেষণকে উত্সাহিত করতে চাই - তত্ত্বাবধানে মূল উপাদানগুলি ( পরিসংখ্যানগত শিক্ষার উপাদানসমূহ বইয়ের পৃষ্ঠা 678, অ্যালগরিদম 18.1 দেখুন) )।

আংশিক সর্বনিম্ন স্কোয়ারগুলি ওজনের শোরগোলের বৈশিষ্ট্যগুলি রয়েছে, তবে সেগুলি ফেলে দেয় না; ফলস্বরূপ প্রচুর শোরগোলের বৈশিষ্ট্য ভবিষ্যদ্বাণীগুলিকে দূষিত করতে পারে। থ্রেসহোল্ডেড পিএলএস তদারকি করা মূল উপাদানগুলির একটি শোরগোল সংস্করণ হিসাবে দেখা যেতে পারে, এবং তাই আমরা এটি অনুশীলনের পাশাপাশি কাজ করার আশাও করতে পারি না। তত্ত্বাবধানে মূল উপাদানগুলি এর চেয়ে কম পরীক্ষার ত্রুটি অর্জন করতে পারে থ্রেশোল্ড পিএলএসের । তবে এটি সর্বদা স্বল্প সংখ্যক বৈশিষ্ট্যযুক্ত একটি স্পার মডেল উত্পাদন করে না।

p


1
Bias2+Variance

2
আপনি যখন বলছেন যে "এল 2-আদর্শের অনন্য সমাধান রয়েছে যখন এল 1-আদর্শটি নেই"। লাসো উদ্দেশ্যটি উত্তল ...
অ্যান্ড্রু এম
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.