ক্ষুদ্রতম কোনটি - যা


14

β^λ=argminβRp12nyXβ22+λβ1,
ithxiRpXRn×pyii=1,n

আমরা জানি যে λ1nXTy , লাসো অনুমান β^λ=0 । (উদাহরণস্বরূপ, লাসো এবং রিজ টিউনিংয়ের প্যারামিটার স্কোপ দেখুন )) অন্য স্বীকৃতিতে এটি প্রকাশ করছে যে \ লাম্বদা_ \ সর্বোচ্চ = \ frac {1} {n} \ | এক্স ^ টি y \ | _ \ ইনফটিλmax=1nXTy । লক্ষ্য করুন যে λmax=supβ^λ0λ.নিম্নলিখিত চিত্রটি লসো সমাধানের পথটি প্রদর্শন করে আমরা এটি দেখতে পাচ্ছি:

লাসো সমাধানের পথ

লক্ষ্য করুন যে পর্যন্ত চক্রান্ত ডান দিকে, কোফিসিয়েন্টস সব শূন্য হয়। এটি উপরে বর্ণিত \ ল্যাম্বদা_ \ ম্যাথ্রিম {সর্বাধিক the বিন্দুতে ঘটে λmax

এই চক্রান্ত থেকে, আমরা যে বিজ্ঞপ্তি উপর পর্যন্ত বাম দিকে, সহগ সব অশূন্য আছেন: মান কি যা কোন উপাদান প্রাথমিকভাবে শূন্য হয়? তা হল, এবং ক্রিয়াকলাপ হিসাবে সমান কী? আমি একটি বন্ধ ফর্ম সমাধান আগ্রহী। বিশেষত, আমি একটি অ্যালগরিদমিক সমাধানে আগ্রহী নই, যেমন, উদাহরণস্বরূপ, পরামর্শ দিচ্ছে যে এলএআরএস গণনার মাধ্যমে গিঁটটি খুঁজে পেতে পারে।λβ^λ

λmin=minjs.t.β^j=0λ
Xy

আমার আগ্রহ সত্ত্বেও, মনে হচ্ছে closed বন্ধ আকারে উপলব্ধ নাও হতে পারে, অন্যথায়, ক্রস বৈধকরণের সময় টিউনিং প্যারামিটার গভীরতা নির্ধারণ করার সময় লাসো গণনা প্যাকেজগুলি সম্ভবত এটির সুবিধা নেবে। এর আলোকে আমি এবং (এখনও) একটি বদ্ধ ফর্ম সম্পর্কে বিশেষভাবে আগ্রহী সম্পর্কে তাত্ত্বিকভাবে প্রদর্শিত যেতে পারে এমন কোনও বিষয়ে আমি আগ্রহী interestedλminλmin


এটি উজ্জ্বল কাগজে প্রমাণিত এবং প্রমাণিত হয়েছে: web.stanford.edu/~hastie/Papers/glmnet.pdf
ম্যাথু

@ ম্যাথেজড্রুরি এটি ভাগ করে নেওয়ার জন্য ধন্যবাদ! যাইহোক, এই কাগজটি তারা যা করার পরামর্শ দিচ্ছে বলে মনে হচ্ছে তা ভাগ করে নেবে না। বিশেষত, লক্ষ্য করুন যে আমার তাদের । λmaxλmin
user795305

আপনি কি নিশ্চিত যে আমাদের [টিউনিং-প্যারামিটার] ট্যাগটি লাগবে?
অ্যামিবা বলেছেন মোনিকা

1
আপনার অধিকার, লাসো সলিউশনটির জন্য একটি বদ্ধ ফর্মটি সাধারণত বিদ্যমান নেই (দেখুন stats.stackexchange.com/questions/174003/… )। যাইহোক, কমপক্ষে আপনাকে কী চলছে এবং কোন সঠিক অবস্থার অধীনে / কোন সময়ে আপনি কোনও ভেরিয়েবল যুক্ত / মুছতে পারবেন তা জানায় rs আমি মনে করি এরকম কিছু আপনার পক্ষে সেরা।
chRrr

1
@chRrr আমি নিশ্চিত যে এটি সম্পূর্ণ ন্যায্য: আমরা জানি যে জন্য । এটি হল, সমাধানটি 0 হওয়ার চরম ক্ষেত্রে, আমাদের একটি বন্ধ ফর্ম রয়েছে। আমি জিজ্ঞাসা করছি লাসো অনুমানের ঘন হওয়ার (যেমন কোনও জিরো নেই) চরম ক্ষেত্রে একই হয় কিনা। প্রকৃতপক্ষে, আমি এমনকি of --- এর ঠিক আগ্রহী নই কেবল সেগুলি শূন্য হোক বা না হোক। β^λ=0λ1nXtyβ^λ
user795305

উত্তর:


15

প্রশ্নটিতে বর্ণিত লাসো অনুমানটি হ'ল ল্যাঞ্জরেঞ্জ গুণকটি নিম্নলিখিত অপটিমাইজেশন সমস্যার সমতুল্য:

minimize f(β) subject to g(β)t

f(β)=12n||yXβ||22g(β)=||β||1

এই অপটিমাইজিয়নে একটি বহুমাত্রিক গোলক এবং একটি পলিটোপের (এক্স এর ভেক্টর দ্বারা বিস্তৃত) মধ্যে যোগাযোগের বিন্দুটি খুঁজে পাওয়ার একটি জ্যামিতিক উপস্থাপনা রয়েছে । পলিটপের পৃষ্ঠটি g(β) । গোলকের ব্যাসার্ধের বর্গক্ষেত্রটি f(β) ফাংশনটি উপস্থাপন করে এবং উপরিভাগের সাথে যোগাযোগ করলে এটি হ্রাস করা হয়।

নীচের চিত্রগুলি একটি গ্রাফিকাল ব্যাখ্যা সরবরাহ করে। চিত্রগুলি 3 টি দৈর্ঘ্যের ভেক্টরগুলির সাথে নিম্নলিখিত সরল সমস্যাটি ব্যবহার করেছে (সরলতার জন্য অঙ্কন করতে সক্ষম হবার জন্য):

[y1y2y3]=[1.41.840.32]=β1[0.80.60]+β2[00.60.8]+β3[0.60.640.48]+[ϵ1ϵ2ϵ3]
এবং আমরা im 2 1 + ϵ 2 2 + min হ্রাস করুন ϵϵ12+ϵ22+ϵ32 বাধ্যতা সঙ্গেabs(β1)+abs(β2)+abs(β3)t

চিত্রগুলি দেখায়:

  • লাল পৃষ্ঠটি প্রতিবন্ধকতাটি দেখায়, এক্স দ্বারা বিস্তৃত একটি পলিটোপ।
  • এবং সবুজ পৃষ্ঠটি ন্যূনতম পৃষ্ঠ, একটি গোলক চিত্রিত করে।
  • নীল লাইন শো Lasso পথ, সমাধান যে আমরা পরিবর্তন খুঁজে t বা λ
  • সবুজ ভেক্টর শো OLS ঔজ্জ্বল্যের প্রেক্ষাপটে সমাধান Y (যা মনোনীত হন β 1 = β 2 = β 3 = 1 বা Y = এক্স 1 + + এক্স 2 + + এক্স 3y^β1=β2=β3=1y^=x1+x2+x3
  • তিনটি কালো ভেক্টর হ'ল x1=(0.8,0.6,0) , x2=(0,0.6,0.8) এবং x3=(0.6,0.64,0.48)

আমরা তিনটি চিত্র দেখায়:

  1. প্রথম চিত্রটিতে পলিটোপের একটি মাত্র বিন্দুটি গোলকের সাথে স্পর্শ করছে । এই চিত্রটি খুব ভালভাবে প্রমাণ করে যে কেন লাসো সলিউশনটি ওএলএস সমাধানের একাধিক নয়। OLS ঔজ্জ্বল্যের প্রেক্ষাপটে সমাধান দিক সমষ্টি শক্তিশালী যোগ |β|1এই ক্ষেত্রে শুধুমাত্র একটি একক βi অ-শূন্য।
  2. দ্বিতীয় চিত্রটিতে পলিটোপের একটি শৃঙ্খলাটি গোলকটিকে স্পর্শ করছে (উচ্চ মাত্রায় আমরা উচ্চতর মাত্রিক এনালগগুলি পাই)। এক্ষেত্রে একাধিক βi অ-শূন্য।
  3. তৃতীয় চিত্রটিতে বহুভুজটির একটি দিকটি গোলকের সাথে স্পর্শ করছে । এই ক্ষেত্রে সব βi অশূন্য হয়

পরিসীমা t বা λ , যার জন্য আমরা প্রথম ও তৃতীয় মামলা রয়েছে সহজেই তাদের সহজ জ্যামিতিক উপস্থাপনা কারণে গণনা করা যেতে পারে।

কেস 1: কেবলমাত্র একক βi শূন্য নয়

নন-জিরো βi এক, যার জন্য সংশ্লিষ্ট ভেক্টর হয় xi সঙ্গে সহভেদাংক সর্বোচ্চ পরম মান আছে Y^ parrallelotope যা OLS ঔজ্জ্বল্যের প্রেক্ষাপটে সমাধান নিকটস্থ বিন্দু যায়)। আমরা Lagrange, গুণক নিরূপণ করতে পারেন λমিএকটিএক্স যার নীচে আমরা অন্তত একটি নন-জিরো আছে β সঙ্গে ব্যুৎপন্ন গ্রহণ করে ±βআমি (নিদর্শন কিনা আমরা বৃদ্ধি উপর নির্ভর করে βআমি নেতিবাচক বা ইতিবাচক দিক):

(12n||yXβ||22λ||β||1)±βi=0

যা বাড়ে

λমিএকটিএক্স=(12এন(||Y-এক্সβ||22±βআমি)(||β||1)±βআমি)=±(12এন||Y-এক্সβ||22βআমি=±1এনএক্সআমিY

যা সমান ||এক্সটিY|| মন্তব্য উল্লেখ করেছে।

যেখানে আমাদের লক্ষ্য করা উচিত যে এটি কেবলমাত্র সেই বিশেষ ক্ষেত্রে সত্য যেখানে পলিটপের টিপটি গোলকের সাথে স্পর্শ করছে ( তাই এটি সাধারণ সমাধান নয় , যদিও সাধারণীকরণ সোজা হলেও)।

কেস 3: সমস্ত βআমি শূন্য নয়।

এক্ষেত্রে বহুভুজের একটি দিকটি গোলকের সাথে স্পর্শ করছে। তারপরে ল্যাসো পথ পরিবর্তনের দিকটি নির্দিষ্ট দিকের পৃষ্ঠের দিকে স্বাভাবিক

Polytope অনেক মতকে, এর ইতিবাচক ও নেতিবাচক অবদানের মাধ্যমে হয়েছে এক্সআমি । শেষ লাসো পদক্ষেপের ক্ষেত্রে, যখন লসো সলিউশন অলস সলিউশনের কাছাকাছি থাকে, তবে এক্সআমি এর অবদানগুলি অবশ্যই ওএলএস সমাধানের চিহ্ন দ্বারা সংজ্ঞায়িত করা উচিত। পল স্বাভাবিক ফাংশন গ্রেডিয়েন্ট গ্রহণ করে সংজ্ঞায়িত করা যায় ||β(R)||1 , সময়ে বিটা এর সমষ্টি মান R , যা:

n=r(||β(r)||1)=r(sign(β^)(XTX)1XTr)=sign(β^)(XTX)1XT

এবং এই দিকের জন্য বিটার সমতুল্য পরিবর্তনটি হ'ল:

βlast=(XTX)1Xn=(XTX)1XT[sign(β^)(XTX)1XT]

যা ট্রান্সপোজস ( ATBT=[BA]T ) স্থানান্তরিত এবং বন্ধনী বিতরণের সাথে কিছু বীজগণিত কৌশলগুলির পরে পরিণত হয়

βlast=(XTX)1sign(β^)

আমরা এই দিকটি স্বাভাবিক করি:

βlast,normalized=βlastβlastsign(β^)

জন্য λমিআমিএন যার নীচে সব কোফিসিয়েন্টস হয় নন-জিরো। আমাদের কেবলমাত্র ওএলএস সমাধান থেকে সেই বিন্দুতে ফিরে গণনা করতে হবে যেখানে সহগের একটি শূন্য,

=মিআমিএন(β^βএকটিগুলিটি,এনRমিএকটিআমিz- র)শর্ত যে β^βএকটিগুলিটি,এনRমিএকটিআমিz- র>0

,and at this point we evaluate the derivative (as before when we calculate λমিএকটিএক্স). We use that for a quadratic function we have কুই'(এক্স)=2কুই(1)এক্স:

λমিআমিএন=এন||এক্সβএকটিগুলিটি,এনRমিএকটিআমিz- র||22

Images

βআমি

লাসো পথের প্রথম পদক্ষেপ

পলিটোপের একটি রিজ (বা একাধিক মাত্রায় পৃথক) গোলকটিকে স্পর্শ করছে, অনেকগুলি βআমি শূন্য নয়:

লাসো পথের মাঝখানে

বহুভুজের একটি দিকটি গোলকটিকে স্পর্শ করছে, সমস্তটি βআমি শূন্য নয়:

লাসো পাথের চূড়ান্ত পদক্ষেপ

কোড উদাহরণ:

library(lars)    
data(diabetes)
y <- diabetes$y - mean(diabetes$y)
x <- diabetes$x

# models
lmc <- coef(lm(y~0+x))
modl <- lars(diabetes$x, diabetes$y, type="lasso")

# matrix equation
d_x <- matrix(rep(x[,1],9),length(x[,1])) %*% diag(sign(lmc[-c(1)]/lmc[1]))
x_c = x[,-1]-d_x
y_c = -x[,1]

# solving equation
cof <- coefficients(lm(y_c~0+x_c))
cof <- c(1-sum(cof*sign(lmc[-c(1)]/lmc[1])),cof)

# alternatively the last direction of change in coefficients is found by:
solve(t(x) %*% x) %*% sign(lmc)

# solution by lars package
cof_m <-(coefficients(modl)[13,]-coefficients(modl)[12,])

# last step
dist <- x %*% (cof/sum(cof*sign(lmc[])))
#dist_m <- x %*% (cof_m/sum(cof_m*sign(lmc[]))) #for comparison

# calculate back to zero
shrinking_set <- which(-lmc[]/cof>0)  #only the positive values
step_last <- min((-lmc/cof)[shrinking_set])

d_err_d_beta <- step_last*sum(dist^2)

# compare
modl[4] #all computed lambda
d_err_d_beta  # lambda last change
max(t(x) %*% y) # lambda first change
enter code here

দ্রষ্টব্য: শেষ তিনটি লাইন সর্বাধিক গুরুত্বপূর্ণ

> modl[4]            # all computed lambda by algorithm
$lambda
 [1] 949.435260 889.315991 452.900969 316.074053 130.130851  88.782430  68.965221  19.981255   5.477473   5.089179
[11]   2.182250   1.310435

> d_err_d_beta       # lambda last change by calculating only last step
    xhdl 
1.310435 
> max(t(x) %*% y)    # lambda first change by max(x^T y)
[1] 949.4353

লিখেছেন স্ট্যাকএক্সচেঞ্জ স্ট্রাইক


সম্পাদনাগুলি অন্তর্ভুক্ত করার জন্য ধন্যবাদ! এখনও আমার পড়াতে, আমি "কেস 1" উপধারা পেরিয়ে গিয়েছি। জন্য ফলাফলλসর্বোচ্চপ্রাপ্ত হওয়াটি ভুল কারণ এটিতে কোনও নিখুঁত মান বা সর্বাধিক অন্তর্ভুক্ত নেই। আমরা আরও জানি যে অনুপস্থিতিতে একটি ভুল আছে, একটি চিহ্ন চিহ্ন রয়েছে, এমন একটি জায়গা যেখানে পৃথকীকরণ ভুলভাবে ধরে নেওয়া হয়েছে, এর একটি "স্বেচ্ছাসেবী পছন্দ"আমিসম্মানের সাথে পার্থক্য করা, এবং একটি ভুলভাবে মূল্যায়িত ডেরিভেটিভ। সত্যি বলতে কি, একটি নেই "="সাইন যে বৈধ।
ব্যবহারকারী795305

আমি এটি একটি প্লাস বিয়োগ চিহ্ন দিয়ে সংশোধন করেছি। বিটার পরিবর্তনটি সম্ভাব্য বা নেতিবাচক হতে পারে। সর্বাধিক এবং "স্বেচ্ছাসেবী পছন্দ" সম্পর্কিত ... "যার জন্য সম্পর্কিত ভেক্টরএক্সআমি এর সাথে সর্বাধিক সমবায় রয়েছে Y^"
Sextus এম্পিরিকাস

আপডেটের জন্য ধন্যবাদ! তবে, এখনও সমস্যা আছে। এই ক্ষেত্রে,βআমিY-এক্সβ22 ভুলভাবে মূল্যায়ন করা হয়।
user795305

যদি β=0 তারপর βআমি||Y-এক্সβ||22
=||Y-এক্সβ||2βআমি2||Y-এক্সβ||2
=||Y-গুলিএক্সআমি||2গুলি2||Y-এক্সβ||2
=2R(এক্সআমি,Y)||এক্সআমি||2||Y||2
=2এক্সআমিY
এই পারস্পরিক সম্পর্ক সমীকরণে প্রবেশ করে কারণ, যদি s = 0 হয় তবে কেবল পরিবর্তন change গুলিএক্সআমি স্পর্শকৃত Y ভেক্টরের দৈর্ঘ্য পরিবর্তন করা হচ্ছে Y-গুলিএক্সআমি
সেক্সটাস এম্পেরিকাস

আহ, ঠিক আছে, সুতরাং আপনার যুক্তিতে জড়িত একটি সীমা আছে! (আপনি উভয় ব্যবহার করছেনβ=0 এবং এটি একটি গুণফল ননজারো)) আরও, এর সাথে লাইনে দ্বিতীয় সমতা λসর্বোচ্চ নিখুঁত মানের পার্থক্যের কারণে চিহ্নটি বদল হতে পারে বলে বিভ্রান্তিকর।
user795305
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.