মূল প্রশ্নটি জিজ্ঞাসা করেছিল যে ত্রুটি ফাংশনটি উত্তল হওয়া দরকার কিনা। না, তা হয় না। নীচে উপস্থাপিত বিশ্লেষণটি এই এবং সংশোধিত প্রশ্ন সম্পর্কে কিছু অন্তর্দৃষ্টি এবং অন্তর্দৃষ্টি প্রদানের উদ্দেশ্যে, যা ত্রুটি ফাংশনটিতে একাধিক স্থানীয় মিনিমা থাকতে পারে কিনা তা জিজ্ঞাসা করে।
স্বজ্ঞাতভাবে, ডেটা এবং প্রশিক্ষণের সেটগুলির মধ্যে কোনও গাণিতিকভাবে প্রয়োজনীয় সম্পর্ক থাকতে হবে না। আমাদের প্রশিক্ষণের ডেটা সন্ধান করা উচিত যার জন্য মডেলটি প্রাথমিকভাবে দুর্বল, কিছু নিয়মিতকরণের মাধ্যমে আরও ভাল হয় এবং তারপরে আবার খারাপ হয়। ত্রুটির কার্ভটি সে ক্ষেত্রে উত্তল হতে পারে না - যদি আমরা নিয়মিতকরণ প্যারামিটার থেকে পরিবর্তিত করি তবে তা নয় ।0∞
নোট করুন যে উত্তলটি একটি অনন্য ন্যূনতম থাকার সমতুল্য নয়! তবে, অনুরূপ ধারণাগুলি পরামর্শ দেয় একাধিক স্থানীয় মিনিমা সম্ভব: নিয়মিতকরণের সময়, প্রথমে উপযুক্ত প্রশিক্ষিত মডেলগুলি কিছু প্রশিক্ষণের ডেটার জন্য আরও ভাল হয়ে উঠতে পারে অন্য প্রশিক্ষণের ডেটাগুলির জন্য প্রশংসনীয়ভাবে পরিবর্তন না করে এবং পরে এটি অন্যান্য প্রশিক্ষণের ডেটা ইত্যাদির জন্য আরও ভাল হয়ে যায় ইত্যাদি উপযুক্ত A এই জাতীয় প্রশিক্ষণের ডেটা মেশানো একাধিক স্থানীয় মিনিমা উত্পাদন করা উচিত। বিশ্লেষণ সহজ রাখতে আমি এটি দেখানোর চেষ্টা করব না।
সম্পাদনা (পরিবর্তিত প্রশ্নের জবাব দিতে)
আমি নীচে উপস্থাপন করা বিশ্লেষণ এবং এর পিছনে অন্তর্দৃষ্টি সম্পর্কে এতটা আত্মবিশ্বাসী ছিলাম যে আমি সবচেয়ে ক্রুয়েস্ট সম্ভাব্য উপায়ে একটি উদাহরণ সন্ধানের বিষয়ে স্থাপন করেছি: আমি ছোট এলোমেলো ডেটাসেট তৈরি করেছি, একটি লাসো চালিয়েছি, একটি ছোট প্রশিক্ষণের জন্য মোট স্কোয়ার ত্রুটি গণনা করেছি, এবং এর ত্রুটি বক্ররেখা প্লট করেছে। কয়েকটি প্রচেষ্টা দুটি মিনিমা সহ একটি তৈরি করেছিল, যা আমি বর্ণনা করব। ভেক্টর আকারে হয় বৈশিষ্ট্যগুলির জন্য এবং এবং প্রতিক্রিয়া ।x 1 x 2 y(x1,x2,y)x1x2y
প্রশিক্ষণ ডেটা
(1,1,−0.1), (2,1,0.8), (1,2,1.2), (2,2,0.9)
পরীক্ষার ডেটা
(1,1,0.2), (1,2,0.4)
লাসোটি ব্যবহার করে চালানো glmnet::glmmet
হয়েছিল R
, সমস্ত তর্ক তাদের ডিফল্টে রেখে। মান x অক্ষ উপর বিপরীতকের (কারণ এটা দিয়ে তার শাস্তি parameterizes মূল্যবোধের সফটওয়্যার দ্বারা রিপোর্ট 1 / λ )।λ1/λ
একাধিক স্থানীয় মিনিমা সহ ত্রুটিযুক্ত বক্ররেখা
বিশ্লেষণ
আসুন বিবেচনা কোনো ঝুলানো প্যারামিটার নিয়মিতকরণ পদ্ধতি ডেটাতে x আমি এবং প্রতিক্রিয়া সংশ্লিষ্ট Y আমি যে রিজ রিগ্রেশন এবং, Lasso এইসব বৈশিষ্ট্য সাধারণ:β=(β1,…,βp)xiyi
(একখান) মেথড বাস্তব সংখ্যা দ্বারা স্থিতিমাপ হয় unregularized মডেল সংশ্লিষ্ট সঙ্গে, λ = 0 ।λ∈[0,∞)λ=0
(নিরবচ্ছিন্ন) পরামিতি অনুমান β উপর ক্রমাগত নির্ভরশীল λ এবং কোন বৈশিষ্ট্যগুলির জন্য পূর্বাভাস মান ক্রমাগত পরিবর্তিত হতে β ।β^λβ^
(সংকোচন) হিসাবে , বিটা → 0 ।λ→∞β^→0
(Finiteness) এর জন্য কোনো বৈশিষ্ট্য ভেক্টর , যেমন β → 0 , পূর্বাভাষ Y ( এক্স ) = চ ( এক্স , β ) → 0 ।xβ^→0y^(x)=f(x,β^)→0
(একঘেয়ে ত্রুটি) ত্রুটি ফাংশন কোনো মান তুলনা একটি পূর্বাভাস মান Y , এল ( Y , Y ) , অমিল সঙ্গে বাড়ে | Y - Y | যাতে, স্বরলিপি কিছু অপব্যবহার সঙ্গে, আমরা এটা যেমন ব্যক্ত করিতে পারিবেন এল ( | Y - Y | ) ।yy^L(y,y^)|y^−y|L(|y^−y|)
(জিরো ইন যে কোনও ধ্রুবক দ্বারা প্রতিস্থাপিত হতে পারে))(4)
ধরুন তথ্য যেমন আছে প্রাথমিক (unregularized) পরামিতি অনুমান β ( 0 ) শূন্য নয়। আসুন কনস্ট্রাক্ট একটি প্রশিক্ষণ ডাটা এক পর্যবেক্ষণ গঠিত সেট ( এক্স 0 , Y 0 ) , যার জন্য চ ( এক্স 0 , β ( 0 ) ) ≠ 0 । (যদি এই জাতীয় কোনও এক্স 0 খুঁজে পাওয়া সম্ভব না হয় তবে প্রাথমিক মডেলটি খুব আকর্ষণীয় হবে না!) Y 0 = f ( x 0 ,β^(0)(x0,y0)f(x0,β^(0))≠0x0। y0=f(x0,β^(0))/2
অনুমানের পরোক্ষভাবে ত্রুটি বক্ররেখা এই বৈশিষ্ট্য আছে:e:λ→L(y0,f(x0,β^(λ))
(পছন্দমত কারণে Y 0 )।e ( 0 ) = L ( y )0, চ( এক্স0, β^( 0 ) ) = এল ( y )0, 2 ওয়াই0) = এল ( | ওয়াই)0| )Y0
(কারণ হিসাবে λ → ∞ , β ( λ ) → 0 , কোথা Y ( এক্স 0 ) → 0 )।লিমλ → ∞e ( λ ) = L ( y )0, 0 ) = এল ( | ওয়াই)0| )λ → ∞β^( λ ) → 0Y^( এক্স0) → 0
সুতরাং, এর গ্রাফ অবিচ্ছিন্নভাবে দুটি সমান উচ্চ (এবং সসীম) শেষ পয়েন্টগুলিকে সংযুক্ত করে।
গুণগতভাবে, তিনটি সম্ভাবনা রয়েছে:
প্রশিক্ষণের সেটটির পূর্বাভাস কখনই বদলায় না। এটি অসম্ভাব্য - আপনি যে কোনও উদাহরণ বেছে নেবেন সে সম্পর্কে এই সম্পত্তি থাকবে না।
জন্য কিছু অন্তর্বর্তী ভবিষ্যৎবাণী হয় খারাপ শুরুতে চেয়ে λ = 0 বা সীমা মধ্যে λ → ∞ । এই ফাংশন উত্তল হতে পারে না।0 < λ < ∞। = 0λ → ∞
সমস্ত মধ্যবর্তী পূর্বাভাস এবং 2 y 0 এর মধ্যে থাকে । ধারাবাহিকতাটি ইঙ্গিত দেয় সেখানে কমপক্ষে এক নূন্যতম ই থাকবে , যার কাছে ই অবশ্যই উত্তল হতে হবে। কিন্তু যেহেতু ই ( λ ) একটি পন্থা সসীম asymptotically ধ্রুবক, তাই না উত্তল বৃহৎ যথেষ্ট জন্য হতে পারে λ ।02 ওয়াই0ইইই ( λ )λ
চিত্রের উল্লম্ব ড্যাশযুক্ত রেখাটি দেখায় যেখানে প্লটটি উত্তল (তার বাম দিকে) থেকে নন-উত্তল (ডানদিকে) থেকে পরিবর্তিত হয়। ( এই চিত্রটিতে 0 -এর কাছাকাছি বেহালতার অঞ্চলও রয়েছে , তবে সাধারণভাবে এটি অবশ্যই হবে না))। ≈ 0