ক্রসওয়েডেশন সহ গ্ল্যামনেট প্যাকেজে ডিভায়েন্স পরিমাপের সঠিক সংজ্ঞা?


12

আমার বর্তমান পুনর্বিবেচনার জন্য আমি একটি দ্বিপদী নির্ভরশীল ভেরিয়েবলের আর-তে গ্ল্যামনেট প্যাকেজের মাধ্যমে লাসো পদ্ধতিটি ব্যবহার করছি।

গ্ল্যামনেটে সর্বোত্তম ল্যাম্বডাকে ক্রস-বৈধকরণের মাধ্যমে পাওয়া যায় এবং ফলস্বরূপ মডেলগুলি বিভিন্ন ব্যবস্থার সাথে তুলনা করা যায়, উদাহরণস্বরূপ ভুল শ্রেণিবদ্ধকরণ ত্রুটি বা বিচ্যুতি।

আমার প্রশ্ন: গ্ল্যামনেটে ডিভ্যান্স ঠিক কীভাবে সংজ্ঞায়িত হয়? কিভাবে এটি গণনা করা হয়?

(সম্পর্কিত কাগজে ফ্রেডম্যান এট আল দ্বারা "সমন্বিত বংশোদ্ভূত মাধ্যমে জেনারাইজড লিনিয়ার মডেলগুলির জন্য নিয়মিতকরণের পাথস") আমি কেবল cv.glmnet- এ ব্যবহৃত বিচ্যুতি সম্পর্কে এই মন্তব্যটি পাই: "বিচ্যুতি মানে বামে-বাইরে লগ-সম্ভাবনার দ্বিগুণ ডেটা) "(পি। 17))।


এটি ডিভ্যান্স হিসাবে ব্যবহৃত হিসাবে একই glm(বা কমপক্ষে, এটি হওয়া উচিত - আমি অবগত বিচ্যুততার একটিমাত্র সংজ্ঞা আছে)।
হংক ওওই

হ্যাঁ, তবে আমি মনে করি তারা আমার প্রথম পোস্টের উদ্ধৃতি দ্বারা নির্দেশিত হিসাবে এটি কোনওভাবে প্রসারিত করেছে। ডিভ্যান্স যেমনটি আমি বুঝতে পেরেছি দুটি মডেলের পারফরম্যান্সের তুলনা করতে পারে তবে লেখকরা তখন ক্রস-বৈধকরণের বাম-আউট ডেটা কীভাবে অন্তর্ভুক্ত করবেন? "বাম-আউট ডেটাতে লগ-সম্ভাবনার দ্বিগুণ" বিয়োগটি কীভাবে বোঝায়?
জো Wmann

1
ঠিক আছে, ধন্যবাদ, এখন আমি মনে করি এটি পেয়েছি: বিচ্যুতিটি -2 * লগ-সম্ভাবনা বা বরং (2 * লগ-সম্ভাবনা) / (নাল-মডেলের লগ-সম্ভাবনা) হিসাবে সংজ্ঞায়িত করা হয়। এটি আরও ব্যাখ্যা করে যে ল্যাম্বদার বিভিন্ন মানের জন্য তাদের বিচ্যুতি পরিমাপ কেন অন্তর 0,2 ছাড়িয়ে যায় না। মডেলটি ক্রস-বৈধকরণের কে -1 ভাগে অনুমান করা হয় এবং অবশিষ্ট ভাঁজে প্রয়োগ করা হয় to বাকি ভাগে অ্যাপ্লিকেশনটির জন্য লগ-সম্ভাবনা-স্কোর গণনা করা হয়। এটি কে-কে বারবার পুনরাবৃত্তি করা হয় এবং উপরের সুনির্দিষ্ট বিবর্তন পরিমাপের প্রতিটি ল্যাম্বডায় কে ফলাফলের গড় ফিরে আসে।
জো Wmann

1
হ্যাঁ এটি সর্বদা প্রতিটি ল্যাম্বডারের জন্য সমস্ত ভাঁজগুলির উপরে গড়। আমি মনে করি আপনি সরাসরি ন্যায্য মডেলটির জন্য বিচ্যুতি বা অনুপাতের ব্যবহার করতে পারেন যা সম্ভবত কেবলমাত্র ইন্টারসেপ্ট একমাত্র মডেল। দুটি অসুবিধা রয়েছে: ক) ভাঁজগুলিতে সঠিক পয়েন্টের সমান সংখ্যক নম্বর নাও থাকতে পারে খ) প্রতিটি ভাঁজে আলাদা আলাদা ডেটা থাকে (প্রাকৃতিকভাবে)। ঠিক করতে (ক) আপনি কেবল নির্বাচিত ভাঁজে ডেটা পয়েন্টের সংখ্যা দ্বারা বিচ্যুতি বিভক্ত করতে পারেন। (ক) এবং (খ) একই সময়ে অনুপাত পদ্ধতির ব্যবহার ঠিক করতে। বিচ্যুতি মডেল ধরে নিয়েছে যে প্রতিটি মডেলে ডেটা সেট একই (এমএপি অনুমানের ক্ষেত্রে একই ধারণা যেখানে তারা ডিনোমিনেটরকে উপেক্ষা করে)।
ক্যাগডাস ওজজেঙ্ক

1
তবে একবার ভাঁজগুলি ছবিতে উঠলে ডোনামিনেটরটি ভাঁজগুলি জুড়ে একই হয় না। সুতরাং অনুপাত হ'ল বিযুক্তকারীদের বাতিল করে এটির যত্ন নেয়। আপনি যখন ভাঁজগুলি গড় করেছেন তখন আমি জানি না এটি কত বড় সমস্যা।
ক্যাগডাস ওজজেঙ্ক

উত্তর:


9

ইন ফ্রিডম্যান, Hastie এবং Tibshirani (2010) , একটি দ্বিপদ মডেলের বক্রতা, ক্রস বৈধতা উদ্দেশ্যে, হিসাবে গণনা করা হয়

বাম-আউট ডেটাতে লগ-সম্ভাবনার দ্বিগুণ বিয়োগ (পৃষ্ঠা 17)

প্রদত্ত যে এটি (কাগজ 2 এবং 5 পৃষ্ঠায়) নথিতেglmnet উদ্ধৃত কাগজ , এটি সম্ভবত প্যাকেজে ব্যবহৃত সূত্র।

এবং প্রকৃতপক্ষে, ফাংশনের সোর্স কোডে cvlognet, প্রতিক্রিয়াটির জন্য ডিভ্যান্সের অবশিষ্টাংশগুলি হিসাবে গণনা করা হয়

-2*((y==2)*log(predmat)+(y==1)*log(1-predmat))

predmatসহজভাবে যেখানে

predict(glmnet.object,x,lambda=lambda)

এবং এনক্লোজিং cv.glmnetফাংশন থেকে পাস করেছেন । আমি কাগজের জন্য জেস্ট্যাটসফ্ট পৃষ্ঠায় উপলভ্য উত্স কোডটি ব্যবহার করেছি এবং সেই কোডটি কতটা আপ টু ডেট তা আমি জানি না। এই প্যাকেজের কোড আশ্চর্যজনকভাবে সহজ এবং পঠনযোগ্য; আপনি সর্বদা টাইপ করে নিজের জন্য যাচাই করতে পারেন glmnet:::cv.glmnet


1

@ শ্যাডটোলেটকারের উত্তর ছাড়াও, যখন আমি প্যাকেজ গ্ল্যামনেট ব্যবহার করছিলাম, তখন আমার মনে হয় ক্রস-বৈধকরণের বিচ্যুতিটি কোনওভাবেই স্বাভাবিক করা হয়েছে।

library(glmnet)
data(BinomialExample)

fit = cv.glmnet(x,y, family = c("binomial"), intercept = FALSE)
head(fit$cvm) # deviance from test samples at lambda value

# >[1] 1.383916 1.359782 1.324954 1.289653 1.255509 1.223706

# deviance from (test samples? all samples?) at lambda value
head(deviance(fit$glmnet.fit))

# >[1] 138.6294 134.5861 131.1912 127.1832 122.8676 119.1637

রেফারেন্স: বিচ্যুতি আর ডকুমেন্ট

কারণ যদি আমি বিভাগ করি,

head(deviance(fit$glmnet.fit)) / length(y))

ফলাফল হলো

[1] 1.386294 1.345861 1.311912 1.271832 1.228676 1.191637

যা ফিট $ সিভিএমের খুব কাছাকাছি।

এই প্রশ্নটিতে @ হং ওইয়ের মন্তব্যটি এটি হতে পারে:

/programming/43468665/poisson-deviance-glmnet

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.