লজিস্টিক রিগ্রেশন অপ্টিমাইজেশনের জন্য নিউটনের পদ্ধতিটি কেন পুনরুক্তিযুক্ত ন্যূনতম স্কোয়ার্স বলা হয়?
এটি আমার কাছে স্পষ্ট বলে মনে হচ্ছে না কারণ লজিস্টিক ক্ষতি এবং সর্বনিম্ন স্কোয়ার ক্ষতি সম্পূর্ণ ভিন্ন জিনিস।
লজিস্টিক রিগ্রেশন অপ্টিমাইজেশনের জন্য নিউটনের পদ্ধতিটি কেন পুনরুক্তিযুক্ত ন্যূনতম স্কোয়ার্স বলা হয়?
এটি আমার কাছে স্পষ্ট বলে মনে হচ্ছে না কারণ লজিস্টিক ক্ষতি এবং সর্বনিম্ন স্কোয়ার ক্ষতি সম্পূর্ণ ভিন্ন জিনিস।
উত্তর:
সংক্ষিপ্তসার: জিএলএমগুলি ফিশার স্কোরিংয়ের মাধ্যমে ফিট রয়েছে যা দিমিত্রি ভি। মাস্টারভের মন্তব্য অনুসারে, নিউটন-রাফসন হ'ল পরিবর্তে প্রত্যাশিত হেসিয়ান (যেমন আমরা পর্যবেক্ষণ করা তথ্যের পরিবর্তে ফিশার তথ্যের একটি অনুমান ব্যবহার করি)। যদি আমরা ক্যানোনিকাল লিঙ্ক ফাংশনটি ব্যবহার করি তবে দেখা যাচ্ছে যে পর্যবেক্ষণ করা হেসিয়ান প্রত্যাশিত হেসিয়ান সমান তাই এনআর এবং ফিশার স্কোরিং একই ক্ষেত্রে একই। যে কোনও উপায়ে, আমরা দেখতে পাব যে ফিশার স্কোরিংটি আসলে একটি ওজনযুক্ত সর্বনিম্ন স্কোয়ার লিনিয়ার মডেলকে ফিট করে এবং লজিস্টিক রিগ্রেশন সম্ভাবনার সর্বাধিক ক্ষেত্রে এই রূপান্তরটি থেকে সহগের অনুমান। ইতিমধ্যে সমস্যার সমাধানে লজিস্টিক রিগ্রেশন ফিটিং হ্রাস করার পাশাপাশি আমরা আমাদের লজিস্টিক রিগ্রেশন সম্পর্কে জানতে চূড়ান্ত ডাব্লুএলএস ফিটের ক্ষেত্রে লিনিয়ার রিগ্রেশন ডায়াগনস্টিকগুলি ব্যবহার করতে সক্ষম হওয়ার সুবিধাও পাই।
আমি এটি লজিস্টিক রিগ্রেশনকে কেন্দ্র করে রাখছি, তবে জিএলএমগুলিতে সর্বাধিক সম্ভাবনার বিষয়ে আরও সাধারণ দৃষ্টিভঙ্গির জন্য আমি এই অধ্যায়ের 15.3 অনুচ্ছেদটি সুপারিশ করছি যা এটির মধ্য দিয়ে যায় এবং আরও সাধারণ সেটিংয়ে আইআরএলএস প্রাপ্ত করে (আমি মনে করি এটি জন ফক্সের প্রয়োগকৃত থেকে এসেছে) রিগ্রেশন অ্যানালাইসিস এবং জেনারাইজড লিনিয়ার মডেলগুলি )।
শেষ এ দেখতে মন্তব্য
আমরা ফর্ম কিছু iterating আমাদের GLM ঝুলানো হবে
আমাদের লিঙ্ক ফাংশন একটি ফাংশন যে শর্তাধীন গড় মানচিত্র আমাদের রৈখিক predictor, তাই গড় আমাদের মডেল । যাক বিপরীত লিংক গড় থেকে রৈখিক predictor ম্যাপিং ফাংশন হবে।
একটি লজিস্টিক রিগ্রেশনের জন্য আমাদের কাছে স্বতন্ত্র পর্যবেক্ষণের সাথে বার্নোল্লি সম্ভাবনা রয়েছে তাই ডেরিভেটিভস গ্রহণ, ∂ ℓ
এখন ধরা যাক আমরা ক্যানোনিকাল লিঙ্ক ফাংশন ব্যবহার করছি । তারপরে জি - 1 সি ( এক্স ) : = এইচ সি ( এক্স ) = 1 তাইজ ' গ =জগ⋅(1-জগ)যা এই সরলীকৃত মানে ∂ℓ তাই ∇ℓ(খ;Y)=এক্সটি(Y - Y )। উপরন্তু, এখনও ব্যবহারজগ, ∂2ℓ
আসুন তারপর আমরা আছে এইচ=- এক্স টি ডব্লিউএক্স এবং নোট কিভাবে এই কোন নেই Y আমি , এটা আর তাইই(এইচ)=এইচ(আমরা এর কার্যকারিতা হিসেবে এই দেখছেনখতাই শুধুমাত্র র্যান্ডম জিনিসYনিজেই)। সুতরাং আমরা দেখিয়েছি যে ফিজার স্কোরিং নিউটন-রাফসনের সমতুল্য যখন আমরা লজিস্টিক রিগ্রেশনে ক্যানোনিকাল লিঙ্কটি ব্যবহার করি। এছাড়াও শক্তি কর্মদক্ষতার
এখনই তৈরি কাজ প্রতিক্রিয়া এবং মনে রাখবেন ∇ ℓ = এক্স টি ( Y - Y ) = এক্স টি ডব্লিউ z- র ।
Checking this in R
:
set.seed(123)
p <- 5
n <- 500
x <- matrix(rnorm(n * p), n, p)
betas <- runif(p, -2, 2)
hc <- function(x) 1 /(1 + exp(-x)) # inverse canonical link
p.true <- hc(x %*% betas)
y <- rbinom(n, 1, p.true)
# fitting with our procedure
my_IRLS_canonical <- function(x, y, b.init, hc, tol=1e-8) {
change <- Inf
b.old <- b.init
while(change > tol) {
eta <- x %*% b.old # linear predictor
y.hat <- hc(eta)
h.prime_eta <- y.hat * (1 - y.hat)
z <- (y - y.hat) / h.prime_eta
b.new <- b.old + lm(z ~ x - 1, weights = h.prime_eta)$coef # WLS regression
change <- sqrt(sum((b.new - b.old)^2))
b.old <- b.new
}
b.new
}
my_IRLS_canonical(x, y, rep(1,p), hc)
# x1 x2 x3 x4 x5
# -1.1149687 2.1897992 1.0271298 0.8702975 -1.2074851
glm(y ~ x - 1, family=binomial())$coef
# x1 x2 x3 x4 x5
# -1.1149687 2.1897992 1.0271298 0.8702975 -1.2074851
and they agree.
Now if we're not using the canonical link we don't get the simplification of in so becomes much more complicated, and we therefore see a noticeable difference by using in our Fisher scoring.
Here's how this will go: we already worked out the general so the Hessian will be the main difficulty. We need
Via the linearity of expectation all we need to do to get is replace each occurrence of with its mean under our model which is . Each term in the summand will therefore contain a factor of the form
Now let
We have
All together we are iterating
I've written it out this way to emphasize the connection to Newton-Raphson, but frequently people will factor the updates so that each new point is itself the WLS solution, rather than a WLS solution added to the current point . If we wanted to do this, we can do the following:
Let's confirm that this works by using it to perform a probit regression on the same simulated data as before (and this is not the canonical link, so we need this more general form of IRLS).
my_IRLS_general <- function(x, y, b.init, h, h.prime, tol=1e-8) {
change <- Inf
b.old <- b.init
while(change > tol) {
eta <- x %*% b.old # linear predictor
y.hat <- h(eta)
h.prime_eta <- h.prime(eta)
w_star <- h.prime_eta^2 / (y.hat * (1 - y.hat))
z_star <- (y - y.hat) / h.prime_eta
b.new <- b.old + lm(z_star ~ x - 1, weights = w_star)$coef # WLS
change <- sqrt(sum((b.new - b.old)^2))
b.old <- b.new
}
b.new
}
# probit inverse link and derivative
h_probit <- function(x) pnorm(x, 0, 1)
h.prime_probit <- function(x) dnorm(x, 0, 1)
my_IRLS_general(x, y, rep(0,p), h_probit, h.prime_probit)
# x1 x2 x3 x4 x5
# -0.6456508 1.2520266 0.5820856 0.4982678 -0.6768585
glm(y~x-1, family=binomial(link="probit"))$coef
# x1 x2 x3 x4 x5
# -0.6456490 1.2520241 0.5820835 0.4982663 -0.6768581
and again the two agree.
Finally, a few quick comments on convergence (I'll keep this brief as this is getting really long and I'm no expert at optimization). Even though theoretically each is negative definite, bad initial conditions can still prevent this algorithm from converging. In the probit example above, changing the initial conditions to b.init=rep(1,p)
results in this, and that doesn't even look like a suspicious initial condition. If you step through the IRLS procedure with that initialization and these simulated data, by the second time through the loop there are some that round to exactly and so the weights become undefined. If we're using the canonical link in the algorithm I gave we won't ever be dividing by to get undefined weights, but if we've got a situation where some are approaching or , such as in the case of perfect separation, then we'll still get non-convergence as the gradient dies without us reaching anything.