নিয়মিতকরণের পরামিতি লাম্বদা-র ত্রুটিটি কি উত্তল ফাংশন?


11

রিজ বা লাসোতে নিয়মিতকরণ পরামিতি ল্যাম্বদা নির্বাচন করার ক্ষেত্রে প্রস্তাবিত পদ্ধতিটি ল্যাম্বদার বিভিন্ন মান চেষ্টা করে, বৈধতা সেটটিতে ত্রুটিটি পরিমাপ করে এবং অবশেষে লাম্বদার সেই মানটি বেছে নেয় যা সর্বনিম্ন ত্রুটি প্রদান করে।

যদি ফ (ল্যাম্বদা) ফাংশন = ত্রুটি উত্তল হয় তবে এটি আমার কাছে ক্লিট হয় না। এটা কি এরকম হতে পারে? অর্থাত্ এই বক্ররেখায় একাধিক স্থানীয় মিনিমা থাকতে পারে (যা বোঝায় যে ল্যাম্বদার কোনও কোনও অঞ্চলে ন্যূনতম ত্রুটি সন্ধান করা এই সম্ভাবনাটি হ্রাস করে না যে অন্য কোনও অঞ্চলে ল্যাম্বডা আরও ছোট ত্রুটি ফেরত রয়েছে)

এখানে চিত্র বর্ণনা লিখুন

আপনার পরামর্শ প্রশংসা করা হবে।

উত্তর:


11

মূল প্রশ্নটি জিজ্ঞাসা করেছিল যে ত্রুটি ফাংশনটি উত্তল হওয়া দরকার কিনা। না, তা হয় না। নীচে উপস্থাপিত বিশ্লেষণটি এই এবং সংশোধিত প্রশ্ন সম্পর্কে কিছু অন্তর্দৃষ্টি এবং অন্তর্দৃষ্টি প্রদানের উদ্দেশ্যে, যা ত্রুটি ফাংশনটিতে একাধিক স্থানীয় মিনিমা থাকতে পারে কিনা তা জিজ্ঞাসা করে।

স্বজ্ঞাতভাবে, ডেটা এবং প্রশিক্ষণের সেটগুলির মধ্যে কোনও গাণিতিকভাবে প্রয়োজনীয় সম্পর্ক থাকতে হবে না। আমাদের প্রশিক্ষণের ডেটা সন্ধান করা উচিত যার জন্য মডেলটি প্রাথমিকভাবে দুর্বল, কিছু নিয়মিতকরণের মাধ্যমে আরও ভাল হয় এবং তারপরে আবার খারাপ হয়। ত্রুটির কার্ভটি সে ক্ষেত্রে উত্তল হতে পারে না - যদি আমরা নিয়মিতকরণ প্যারামিটার থেকে পরিবর্তিত করি তবে তা নয় ।0

নোট করুন যে উত্তলটি একটি অনন্য ন্যূনতম থাকার সমতুল্য নয়! তবে, অনুরূপ ধারণাগুলি পরামর্শ দেয় একাধিক স্থানীয় মিনিমা সম্ভব: নিয়মিতকরণের সময়, প্রথমে উপযুক্ত প্রশিক্ষিত মডেলগুলি কিছু প্রশিক্ষণের ডেটার জন্য আরও ভাল হয়ে উঠতে পারে অন্য প্রশিক্ষণের ডেটাগুলির জন্য প্রশংসনীয়ভাবে পরিবর্তন না করে এবং পরে এটি অন্যান্য প্রশিক্ষণের ডেটা ইত্যাদির জন্য আরও ভাল হয়ে যায় ইত্যাদি উপযুক্ত A এই জাতীয় প্রশিক্ষণের ডেটা মেশানো একাধিক স্থানীয় মিনিমা উত্পাদন করা উচিত। বিশ্লেষণ সহজ রাখতে আমি এটি দেখানোর চেষ্টা করব না।

সম্পাদনা (পরিবর্তিত প্রশ্নের জবাব দিতে)

আমি নীচে উপস্থাপন করা বিশ্লেষণ এবং এর পিছনে অন্তর্দৃষ্টি সম্পর্কে এতটা আত্মবিশ্বাসী ছিলাম যে আমি সবচেয়ে ক্রুয়েস্ট সম্ভাব্য উপায়ে একটি উদাহরণ সন্ধানের বিষয়ে স্থাপন করেছি: আমি ছোট এলোমেলো ডেটাসেট তৈরি করেছি, একটি লাসো চালিয়েছি, একটি ছোট প্রশিক্ষণের জন্য মোট স্কোয়ার ত্রুটি গণনা করেছি, এবং এর ত্রুটি বক্ররেখা প্লট করেছে। কয়েকটি প্রচেষ্টা দুটি মিনিমা সহ একটি তৈরি করেছিল, যা আমি বর্ণনা করব। ভেক্টর আকারে হয় বৈশিষ্ট্যগুলির জন্য এবং এবং প্রতিক্রিয়া ।x 1 x 2 y(x1,x2,y)x1x2y

প্রশিক্ষণ ডেটা

(1,1,0.1), (2,1,0.8), (1,2,1.2), (2,2,0.9)

পরীক্ষার ডেটা

(1,1,0.2), (1,2,0.4)

লাসোটি ব্যবহার করে চালানো glmnet::glmmetহয়েছিল R, সমস্ত তর্ক তাদের ডিফল্টে রেখে। মান x অক্ষ উপর বিপরীতকের (কারণ এটা দিয়ে তার শাস্তি parameterizes মূল্যবোধের সফটওয়্যার দ্বারা রিপোর্ট 1 / λ )।λ1/λ

একাধিক স্থানীয় মিনিমা সহ ত্রুটিযুক্ত বক্ররেখা

ব্যক্তিত্ব


বিশ্লেষণ

আসুন বিবেচনা কোনো ঝুলানো প্যারামিটার নিয়মিতকরণ পদ্ধতি ডেটাতে x আমি এবং প্রতিক্রিয়া সংশ্লিষ্ট Y আমি যে রিজ রিগ্রেশন এবং, Lasso এইসব বৈশিষ্ট্য সাধারণ:β=(β1,,βp)xiyi

  1. (একখান) মেথড বাস্তব সংখ্যা দ্বারা স্থিতিমাপ হয় unregularized মডেল সংশ্লিষ্ট সঙ্গে, λ = 0λ[0,)λ=0

  2. (নিরবচ্ছিন্ন) পরামিতি অনুমান β উপর ক্রমাগত নির্ভরশীল λ এবং কোন বৈশিষ্ট্যগুলির জন্য পূর্বাভাস মান ক্রমাগত পরিবর্তিত হতে ββ^λβ^

  3. (সংকোচন) হিসাবে , বিটা0λβ^0

  4. (Finiteness) এর জন্য কোনো বৈশিষ্ট্য ভেক্টর , যেমন β0 , পূর্বাভাষ Y ( এক্স ) = ( এক্স , β ) 0xβ^0y^(x)=f(x,β^)0

  5. (একঘেয়ে ত্রুটি) ত্রুটি ফাংশন কোনো মান তুলনা একটি পূর্বাভাস মান Y , এল ( Y , Y ) , অমিল সঙ্গে বাড়ে | Y - Y | যাতে, স্বরলিপি কিছু অপব্যবহার সঙ্গে, আমরা এটা যেমন ব্যক্ত করিতে পারিবেন এল ( | Y - Y | )yy^L(y,y^)|y^y|L(|y^y|)

(জিরো ইন যে কোনও ধ্রুবক দ্বারা প্রতিস্থাপিত হতে পারে))(4)

ধরুন তথ্য যেমন আছে প্রাথমিক (unregularized) পরামিতি অনুমান β ( 0 ) শূন্য নয়। আসুন কনস্ট্রাক্ট একটি প্রশিক্ষণ ডাটা এক পর্যবেক্ষণ গঠিত সেট ( এক্স 0 , Y 0 ) , যার জন্য ( এক্স 0 , β ( 0 ) ) 0 । (যদি এই জাতীয় কোনও এক্স 0 খুঁজে পাওয়া সম্ভব না হয় তবে প্রাথমিক মডেলটি খুব আকর্ষণীয় হবে না!) Y 0 = f ( x 0 ,β^(0)(x0,y0)f(x0,β^(0))0x0y0=f(x0,β^(0))/2

অনুমানের পরোক্ষভাবে ত্রুটি বক্ররেখা এই বৈশিষ্ট্য আছে:e:λL(y0,f(x0,β^(λ))

  1. (পছন্দমত কারণে Y 0 )।e(0)=L(y0,f(x0,β^(0))=L(y0,2y0)=L(|y0|)y0

  2. (কারণ হিসাবে λ , β ( λ ) 0 , কোথা Y ( এক্স 0 ) 0 )।limλe(λ)=L(y0,0)=L(|y0|)λβ^(λ)0y^(x0)0

সুতরাং, এর গ্রাফ অবিচ্ছিন্নভাবে দুটি সমান উচ্চ (এবং সসীম) শেষ পয়েন্টগুলিকে সংযুক্ত করে।

Figure e a এর অপসারণযোগ্য গ্রাফ দেখাচ্ছে চিত্র

গুণগতভাবে, তিনটি সম্ভাবনা রয়েছে:

  • প্রশিক্ষণের সেটটির পূর্বাভাস কখনই বদলায় না। এটি অসম্ভাব্য - আপনি যে কোনও উদাহরণ বেছে নেবেন সে সম্পর্কে এই সম্পত্তি থাকবে না।

  • জন্য কিছু অন্তর্বর্তী ভবিষ্যৎবাণী হয় খারাপ শুরুতে চেয়ে λ = 0 বা সীমা মধ্যে λ । এই ফাংশন উত্তল হতে পারে না।0<λ<λ=0λ

  • সমস্ত মধ্যবর্তী পূর্বাভাস এবং 2 y 0 এর মধ্যে থাকে । ধারাবাহিকতাটি ইঙ্গিত দেয় সেখানে কমপক্ষে এক নূন্যতম ই থাকবে , যার কাছে অবশ্যই উত্তল হতে হবে। কিন্তু যেহেতু ( λ ) একটি পন্থা সসীম asymptotically ধ্রুবক, তাই না উত্তল বৃহৎ যথেষ্ট জন্য হতে পারে λ02y0eee(λ)λ

চিত্রের উল্লম্ব ড্যাশযুক্ত রেখাটি দেখায় যেখানে প্লটটি উত্তল (তার বাম দিকে) থেকে নন-উত্তল (ডানদিকে) থেকে পরিবর্তিত হয়। ( এই চিত্রটিতে 0 -এর কাছাকাছি বেহালতার অঞ্চলও রয়েছে , তবে সাধারণভাবে এটি অবশ্যই হবে না))λ0


আপনার বিস্তৃত উত্তরের জন্য আপনাকে ধন্যবাদ। সম্ভব হলে প্রশ্নটি পর্যালোচনা করুন আমি সম্পাদিত হিসাবে এবং আপনার প্রতিক্রিয়া আপডেট।
rf7

দুর্দান্ত উত্তর (+1)। অনুশীলনে, আমি মনে করি প্রায়শই খুব কম প্রশিক্ষণ এবং পরীক্ষার ডেটা পয়েন্ট থাকে না। একই (স্থির এবং পর্যাপ্ত নিয়মিত) বন্টন থেকে অঙ্কিত পর্যাপ্ত প্রশিক্ষণ এবং পরীক্ষার ডেটা পয়েন্ট রয়েছে যখন এই উত্তরটির উপসংহার পরিবর্তন হবে? বিশেষত, এই পরিস্থিতিতে, উচ্চ সম্ভাবনা সহ কোনও অনন্য স্থানীয় ন্যূনতম কি আছে?
ব্যবহারকারী795305

@ বেন এটি পরীক্ষার পয়েন্টগুলির যে সংখ্যাটি গুরুত্বপূর্ণ তা নয়: এই ফলাফলটি সম্পূর্ণরূপে প্রশিক্ষণ পয়েন্টগুলির বিতরণের সাথে সম্পর্কিত পরীক্ষার পয়েন্টগুলির বিতরণের উপর নির্ভর করে। সুতরাং "উচ্চ সম্ভাব্যতা সহ" ইস্যুটি রেজিস্ট্রার ভেরিয়েবলের মাল্টিভারিয়েট বিতরণ সম্পর্কে কিছু সুনির্দিষ্ট ধারনা না করে জবাবদিহি হবে না। এছাড়াও, বিভিন্ন ভেরিয়েবলের সাথে একাধিক স্থানীয় মিনিমার এই ঘটনাটি আরও অনেক বেশি সম্ভাবনাযুক্ত হতে চলেছে। আমি সন্দেহ করি যে একটি বৃহত পরীক্ষার সেটের এলোমেলো নির্বাচন (ভেরিয়েবল হিসাবে বহুগুণ পর্যবেক্ষণ সহ) প্রায়শই এক অনন্য বৈশ্বিক মিনিট থাকতে পারে
হোবার

1
@ শুভ ধন্যবাদ! আমি সম্মত হই: প্রশিক্ষণ এবং পরীক্ষার পয়েন্টগুলির মধ্যে (সত্য) বিতরণ সমান হওয়া উচিত এবং প্রশিক্ষণের ও পরীক্ষার সেটগুলির অভিজ্ঞতাগত বিতরণে চুক্তি রয়েছে এমন পর্যাপ্ত পরিমাণে নমুনা থাকা দরকার। (এটি আমার আগের মন্তব্যে আমি খারাপভাবেই বলেছি বলে মনে হয়) উদাহরণস্বরূপ, যদি যৌথভাবে সাধারণ বিতরণ থাকে (অজানা কোভেরিয়েন্স সহ) তবে আমি সন্দেহ করি যে একটি ত্রুটিযুক্ত স্থানীয় মিনিট 1 এর সাথে রূপান্তরিত হওয়ার ত্রুটি বক্ররেখার সম্ভাবনা রয়েছে ( যদি, বলে, আছে এন প্রশিক্ষণ নমুনা এবং সঙ্গে টেস্ট সেট এন সঙ্গে পি সংশোধন (অথবা এমনকি ধীরে ধীরে আপেক্ষিক বৃদ্ধি এন ))(x,y)nnpn
user795305

0

এই উত্তরটি বিশেষত লাসোকে উদ্বেগ করে (এবং রিজ রিগ্রেশন ধারণ করে না))

সেটআপ

মনে করুন যে আমাদের কাছে covariates রয়েছে যা আমরা একটি প্রতিক্রিয়া মডেল করতে ব্যবহার করছি। মনে করুন যে আমাদের কাছে এন ট্রেনিং ডেটা পয়েন্ট এবং এম বৈধতা ডেটা পয়েন্ট রয়েছে।pnm

X(1)Rn×py(1)Rnβλএক্স(2)আরমি×পিওয়াই(2)আরমি λ =ARGমিনিটλ আর + +

(1)β^λ=argminβRpy(1)X(1)β22+λβ1,
β^λX(2)Rm×py(2)Rm। সঙ্গে আমরা ত্রুটি ফাংশন অধ্যয়ন করতে আগ্রহী যা আমাদের জন্ম দেয় তথ্য চালিত মূল্নির্ধারক ।
(2)λ^=argminλR+y(2)X(2)β^λ22,
e(λ)=y(2)X(2)β^λ22β^λ^

হিসাব

এখন আমরা সমীকরণের উদ্দেশ্য দ্বিতীয় ব্যুৎপন্ন নিরূপণ করবে , না করে কোনো উপর distributional অনুমানের 's অথবা এর। পার্থক্য এবং কিছু পুনর্গঠন ব্যবহার করে, আমরা (আনুষ্ঠানিকভাবে) গণনা করি যে (2)Xy

2λ2Y(2)-এক্স(2)β^λ22=λ{-2Y(2)টিএক্স(2)λβ^λ+ +2β^λটিএক্স(2)টিএক্স(2)λβ^λ}=-2Y(2)টিএক্স(2)2λ2β^λ+ +2(β^λ)টিএক্স(2)টিএক্স(2)2λ2β^λ+ +2λβ^λটিএক্স(2)টিএক্স(2)টিλβ^λ=-2{(Y(2)-এক্স(2)β^λ)টি2λ2β^λ-এক্স(2)λβ^λ22}
যেহেতু হয় piecewise রৈখিক জন্য (জন্য Lasso সমাধান পথে নট সসীম সেট হওয়া), ব্যুৎপন্ন piecewise ধ্রুবক এবং সবার জন্য শূন্য হয় । অতএব, একটি অ নেতিবাচক ফাংশন ।β^λλকেকেλβ^λ2λ2β^λλকে
2λ2Y(2)-এক্স(2)β^λ22=2এক্স(2)λβ^λ22,
λ

উপসংহার

যদি আমরা আরও ধরে নিই যে continuous , ভেক্টর থেকে কিছু অবিচ্ছিন্ন বিতরণ থেকে অঙ্কিত হয়েছে প্রায় অবশ্যই ।সুতরাং, ত্রুটি ফাংশন এর তে দ্বিতীয় ডেরাইভেটিভ রয়েছে যা (প্রায় অবশ্যই) কঠোরভাবে ইতিবাচক। তবে, যে অবিচ্ছিন্ন তা জেনে আমরা জানি যে বৈধতা ত্রুটি অবিচ্ছিন্ন।এক্স(2){এক্স(1),Y(1)}এক্স(2)λβ^λ0λ<λসর্বোচ্চ(λ)আরকেβ^λ(λ)

অবশেষে, Lasso দ্বৈত থেকে আমরা জানি যে যেমন monotonically কমে যায় বাড়ে। যদি আমরা এটি প্রতিষ্ঠা করতে পারি যে এছাড়াও একঘেয়ে, তবে এর শক্ত প্রবণতা অনুসরণ করে follows যাইহোক, এই কিছু সম্ভাব্যতা সমীপবর্তী এক সঙ্গে ঝুলিতে যদি । (আমি শীঘ্রই এখানে বিশদ পূর্ণ করব।) λ এক্স ( 2 ) βএক্স(1)β^λ22λএক্স(2)β^λ22(λ)এল(এক্স(1))=এল(এক্স(2))


1
আপনি শুধুমাত্র উপর নির্ভর ফাংশন রৈখিক একটি ক্রমাগত piecewise হচ্ছে উপসংহার কঠোরভাবে উত্তল হয়। সেই ছাড়টি সাধারণত বৈধ কিনা তা দেখা যাক। এরকম একটি ফাংশন হ'ল(যেখানে নিকটতম পূর্ণসংখ্যার বৃত্তাকারকে বোঝায়)। ধরুন এবং , যাতে । এই ত্রুটি ফাংশনটিতে অনেকগুলি স্থানীয় মিনিমা রয়েছে। এটি উত্তল নয় - এটি কেবল বিচ্ছিন্ন পয়েন্টগুলি বাদে সর্বত্র উত্তেজক! এটি আমাকে বিশ্বাস করতে পরিচালিত করে যে আপনি অতিরিক্ত আনস্টেট অনুমান করছেন। λ β (λ)=| λ-[λ]| []Y(2)=0এক্স(2)=1 (λ)= β (λ)2β^λ^β^(λ)=|λ-[λ]|[]Y(2)=0এক্স(2)=1^(λ)=β^(λ)2
whuber

@ শুভ পয়েন্ট! ধন্যবাদ! আমি এই পোস্টটি আরও শীঘ্রই সম্পাদনা করব।
ব্যবহারকারী795305
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.