কেন বিরল মডেলগুলির জন্য এল 1 আদর্শ


97

আমি লিনিয়ার রিগ্রেশন সম্পর্কিত বইগুলি পড়ছি। এল 1 এবং এল 2 আদর্শ সম্পর্কে কিছু বাক্য রয়েছে। আমি তাদের জানি, কেন বিরল মডেলগুলির জন্য L1 আদর্শ m কেউ ব্যবহার করতে পারেন কি একটি সহজ ব্যাখ্যা দিতে?


4
মূলত, sparsity একটি isosurface এর অক্ষ উপর শুয়ে থাকা ধারালো প্রান্ত দ্বারা প্ররোচিত হয়। আমি এখনও অবধি সর্বোত্তম গ্রাফিকাল ব্যাখ্যাটি এই ভিডিওটিতে পেয়েছি: youtube.com/watch?v=sO4ZirJh9ds
felipeduque

1
সেখানে একই একটি ব্লগ নিবন্ধ chioka.in/...
prashanth

মাধ্যমের নীচের পোস্টটি দেখুন। এটা তোলে সাহায্য করতে পারে medium.com/@vamsi149/...
solver149

উত্তর:


111

ভেক্টর Consider Consider যেখানে ছোট। যথাক্রমে of এর এবং নিয়মগুলি দেওয়া হয়ε>0l1l2xx=(1,ε)R2ε>0l1l2x

||x||1=1+ε,  ||x||22=1+ε2

এখন বলুন যে, কিছু নিয়মিতকরণ পদ্ধতির অংশ হিসাবে, আমরা দ্বারা উপাদানগুলির মধ্যে একটির মাত্রা হ্রাস করতে যাচ্ছি । যদি আমরা কে পরিবর্তন করি তবে ফলাফলের নিয়মগুলি হয় δεx11-δxδεx11δ

||x(δ,0)||1=1δ+ε,  ||x(δ,0)||22=12δ+δ2+ε2

অন্যদিকে, হ্রাস দ্বারা নিয়ম দেয় δx2δ

||x(0,δ)||1=1δ+ε,  ||x(0,δ)||22=12εδ+δ2+ε2

এখানে লক্ষ করার বিষয়টি হ'ল, জরিমানার জন্য, বড় মেয়াদে নিয়মিত করার ফলে ছোট মেয়াদে করার চেয়ে আদর্শে অনেক বেশি হ্রাস পাওয়া যায় । জন্য শাস্তি অবশ্য হ্রাস একই। সুতরাং যখন একটি মডেল ব্যবহার করে দণ্ড আরোপ আদর্শ, এটা অত্যন্ত অসম্ভাব্য কিছু বরাবর হ্রাস, শূন্য সেট করা হবে যে আদর্শ থেকে যাচ্ছে করতে প্রায় অবাস্তব যখন ছোট। অন্যদিকে, আদর্শের হ্রাস সর্বদা সমানx 1 x 20 l 1 l 2 l 2 ε 0 ε l 1 δl2x1x20l1l2l2ε0εl1δপরিমাণ নির্বিশেষে দণ্ডিত হচ্ছে।

এটি ভাবার আরেকটি উপায়: এটি এত বেশি নয় যে জরিমানা উত্সাহিত করে, তবে যে উপাদানগুলির শূন্যের কাছাকাছি চলে যাওয়ার কারণে কিছুটা অর্থে জরিমানা হ্রাসকারী রিটার্ন অর্জন করে নিরুৎসাহিত করে।l 2l1l2


3
আপনার উত্তরের জন্য ধন্যবাদ! যদিও আমি শেষ পয়েন্ট দ্বারা নিশ্চিত নই। আপনি যদি অন-পেনাল্টিযুক্ত লিনিয়ার রিগ্রেশন চালনা করেন তবে আপনি খুব কমই বিরল সমাধান পাবেন (যেখানে এল 1 জরিমানা যুক্ত করা আপনাকে প্রায়শই স্বল্পতা দেয়)। সুতরাং এল 1 জরিমানা আসলে শূন্য থেকে শূন্যের কাছাকাছি শুরু হওয়া সহগকে পাঠিয়ে স্পারসিটিকে উত্সাহ দেয়।
স্টিফান ওয়াগার

2
@StefanWager হয়তো এটা একটি অতিরঞ্জন একটি বিট, কিন্তু আমি এটা সত্যি সম্পর্কে বিশেষ কিছু নেই যে মনে করেন শাস্তি এখানে: একটি কোনো শাস্তি এছাড়াও sparsity রাজি করানো হবে, কিন্তু আপনি বাস্তবে কম প্রায়ই ঐ দেখুন (সম্ভবত তারা অবনমিত) আপনি যদি সত্যিই কেবল স্পারসিটি চান তবে একটি পেনাল্টি (শূন্য নয় এমন এন্ট্রিগুলির সংখ্যার সমানুপাতিক) যাওয়ার উপায়, এটি ঠিক তাই ঘটে যে এটি নিয়ে কাজ করা দুঃস্বপ্নের কিছুটা। l α α 1 l 0l1lαα1l0
বনল

1
হ্যাঁ - এটি সঠিক। এমন অনেক নিয়ম রয়েছে যা স্পারসিটির দিকে পরিচালিত করে (যেমন, আপনি উল্লিখিত হিসাবে, পি <= 1 এর সাথে কোনও এলপি আদর্শ)। সাধারণভাবে, শূন্যে একটি ধারালো কোণার সাথে যে কোনও আদর্শ স্বল্পতা দেখায়। সুতরাং, আসল প্রশ্নের দিকে ফিরে যাওয়া - এল 1 আদর্শ শূন্যের উপর বিচ্ছিন্ন গ্রেডিয়েন্ট রেখে স্পারসিটি প্ররোচিত করে (এবং এই সম্পত্তিটির সাথে অন্য কোনও জরিমানাও এটি করবে)।
স্টিফান ওয়াগার

3
যদি কেউ আরও পড়তে চায়, তবে নন-উত্তল জরিমানা সংক্রান্ত ক্রিয়াকলাপ সম্পর্কে একটি সক্রিয় সাহিত্য রয়েছে যা এল 1 আদর্শের বিকল্প (উদাহরণস্বরূপ, সাম্প্রতিককালে কাগজপত্র.নিপস.সি / পেপার / ২ )।
স্টিফান ওয়াগার

1
দুর্দান্ত উত্তর আমি এটি না পাওয়া পর্যন্ত আমি কিছুক্ষণের জন্য ভাবছিলাম।
হ্যাডি এলসাহার

72

একটি বিরল মডেল সহ, আমরা এমন একটি মডেলটির কথা ভাবি যেখানে অনেকগুলি ওজন 0 থাকে us সুতরাং L1- নিয়মিতকরণ কীভাবে 0-ওজন তৈরি হওয়ার সম্ভাবনা বেশি তা নিয়ে যুক্তি দেওয়া যাক।

ওজন নিয়ে গঠিত একটি মডেল বিবেচনা করুন ।(w1,w2,,wm)

এল 1 নিয়মিতকরণের মাধ্যমে, আপনি একটি ক্ষতির ফাংশন দ্বারা মডেলটিকে শাস্তি দিন =।Σ i | w i |L1(w)Σi|wi|

এল 2-নিয়মিতকরণের মাধ্যমে, আপনি একটি ক্ষতির ফাংশন দ্বারা মডেলটিকে শাস্তি দিন =1L2(w)12Σiwi2

গ্রেডিয়েন্ট বংশদ্ভুত ব্যবহার করেন, তাহলে আপনি iteratively এই ওজন একটি পদক্ষেপ আকার সঙ্গে গ্রেডিয়েন্ট বিপরীত দিক পরিবর্তন করতে হবে গ্রেডিয়েন্ট সাথে গুণ। এর অর্থ হ'ল আরও খাড়া গ্রেডিয়েন্ট আমাদের আরও বড় পদক্ষেপ নিতে বাধ্য করবে, অন্যদিকে আরও সমতল গ্রেডিয়েন্ট আমাদের আরও ছোট পদক্ষেপ নিতে বাধ্য করবে। আসুন গ্রেডিয়েন্টগুলি দেখুন (এল 1 এর ক্ষেত্রে সাবগ্রেডিয়েন্ট):η

dL1(w)dw=sign(w) , যেখানেsign(w)=(w1|w1|,w2|w2|,,wm|wm|)

dL2(w)dw=w

যদি আমরা ক্ষতির ক্রিয়াটি প্লট করি এবং এটি কেবলমাত্র একটি একক প্যারামিটার নিয়ে গঠিত মডেলের জন্য ডেরাইভেটিভ, এটি এল 1 এর মতো দেখায়:

এখানে চিত্র বর্ণনা লিখুন

এবং এল 2 এর জন্য এটি পছন্দ করুন:

এখানে চিত্র বর্ণনা লিখুন

লক্ষ্য করুন যে , গ্রেডিয়েন্ট যখন ছাড়া হয় 1 বা -1 হয় । এর অর্থ হ'ল এল 1-নিয়মিতকরণ ওজনের মান নির্বিশেষে একই ধাপের আকারের সাথে যে কোনও ওজনকে 0 এর দিকে নিয়ে যাবে। বিপরীতে, আপনি দেখতে পাচ্ছেন যে L2 গ্রেডিয়েন্ট 0 ওজনের দিকে 0 সাথে রৈখিকভাবে 0 এর দিকে কমছে, সুতরাং, L2- নিয়মিতকরণ কোনও ওজন 0 এর দিকেও সরিয়ে নিয়ে যাবে, তবে ওজন 0 এর কাছাকাছি যাওয়ার সাথে সাথে এটি আরও ছোট এবং ছোট পদক্ষেপ গ্রহণ করবে।L1w1=0L2

কল্পনা করা যে আপনি সঙ্গে একটি মডেল দিয়ে শুরু করার চেষ্টা করুন এবং ব্যবহার । নীচের ছবিতে, আপনি দেখতে পারেন যে এল 1-নিয়মিতকরণ ব্যবহার করে গ্রেডিয়েন্ট বংশোদ্ভূত আপডেটগুলি 10 টি কী করে তোলে , সঙ্গে একটি মডেল পৌঁছনো পর্যন্ত :w1=5η=12w1:=w1ηdL1(w)dw=w1121w1=0

এখানে চিত্র বর্ণনা লিখুন

বিপরীতে, এল 2-নিয়মিতকরণের সাথে যেখানে , গ্রেডিয়েন্টটি , যার ফলে প্রতিটি পদক্ষেপ কেবলমাত্র 0 এর দিকে অর্ধেক হয়ে যায় That এটি, আমরা আপডেটটি অতএব, আমরা যত পদক্ষেপ নিই না কেন মডেল কখনও 0 এর ওজনে পৌঁছায় না:η=12w1w1:=w1ηdL2(w)dw=w112w1

এখানে চিত্র বর্ণনা লিখুন

মনে রাখবেন যে, ও L2-নিয়মিতকরণ করতে একটি ওজন শূন্য পৌঁছানোর করতে যদি ধাপে আকার এতো বেশী যে শূন্য একটি একক ধাপে ছুঁয়েছে। এমনকি L2- নিয়মিতকরণ যদি তার নিজের ওভার 0 বা আন্ডারশুট হয় তবে এটি ওজনের সাথে মডেলটির ত্রুটি হ্রাস করার চেষ্টা করে এমন একটি উদ্দেশ্যমূলক ফাংশন সহ একত্রে ব্যবহৃত হলে এটি 0 এর ওজনে পৌঁছতে পারে। সেক্ষেত্রে মডেলের সেরা ওজন খুঁজে বের করা নিয়মিতকরণ (ছোট ওজন রাখা) এবং ক্ষয়কে হ্রাস করার (প্রশিক্ষণের ডেটা ফিটিং করা) এর মধ্যে একটি বাণিজ্য বন্ধ এবং এই ট্রেড-অফের ফলাফলটি হতে পারে যে কিছু ওজনের জন্য সেরা মূল্য হতে পারে 0 হয়।η


3
কেউ যদি আমাকে ব্যাখ্যা করতে পারে, আমরা যখন 5 এর পরিবর্তে ওজন ডাব্লু 1 = 5.1 শুরু করি তখন আমরা কেন অসীম লুপটিতে যাব না ta লেট ডাব্লু = 0.1, ডাব্লু > 0 সুতরাং আমাদের আংশিক ডেরিভেটিভ 1 তারপর দ্বিতীয় পদক্ষেপ নিন, এখন ডাব্লু <0 => ডেরিভেটিভ = -1:সুতরাং আমরা 0 এর নিকটে অন্তহীন অসিলেট করব
η=0.5
wfirst step=0.10.5(+1)=>w=0.4
wsecondstep=0.40.5(1)=0.1.
অ্যালেক্স ইয়াছিন

5
@ অ্যালেক্সায়েশিন যে সঠিক - আমরা যদি কেবল এল 1 নিয়মিতকরণের উপর ভিত্তি করে ওজনগুলি আপডেট করি তবে আমাদের ওজনগুলি শেষ হতে পারে যেগুলি 0 এর আশেপাশে অবস্থিত But তবে আমরা কখনও ওজন সামঞ্জস্য করতে নিয়মিতকরণ ব্যবহার করি না। আমরা ক্ষতির ক্রিয়াকে অনুকূলকরণের সাথে নিয়মিতকরণ ব্যবহার করি। এইভাবে, নিয়মিতকরণ ওজনকে শূন্যের দিকে ঠেলে দেয় যখন আমরা একই সাথে ওজনকে এমন মানকে ঠেলে দেওয়ার চেষ্টা করি যা পূর্বাভাসকে অনুকূল করে তোলে। দ্বিতীয় দিকটি হচ্ছে শিক্ষার হার। একটি ছোট শিক্ষার হারের সাথে আমরা এই মানটির এত কাছাকাছি যেতে পারি যে নিয়মিতকরণ প্রায়
উপকৃত

1
dL2(w)/dw'মডিউল' কেন এবং কেবল রৈখিক নয়?
mrgloom

1
@ এমআরগ্লুম ওজনে প্রতি পরিবর্তনের dL2(w)/dwপরিবর্তন হিসাবে পড়া যেতে পারে L2(w)। যেহেতু এল 2-নিয়মিতকরণ ওজনকে স্কোয়ার করে, তাই আমাদের ওজন L2(w)বেশি হলে একই ওজনের একই পরিবর্তনের জন্য আরও অনেক কিছু পরিবর্তন হবে। আপনি যখন এটি প্লট করেন তখন ফাংশনটি উত্তল হয়। তবে এল 1 এর জন্য, ওজনগুলির L1(w)প্রতি পরিবর্তনের পরিবর্তনগুলি আপনার ওজনগুলি নির্বিশেষে একই রকম হয় - এটি লিনিয়ার ফাংশনে বাড়ে।
কেন্ট মুনথে ক্যাস্পারসেন

1
নিবন্ধসমূহ এই স্বীকৃত করতে গ্রাফগুলি এবং আপনি যে বিনিয়োগ করেছেন তার জন্য আপনাকে ধন্যবাদ!
লেজার

15

হাস্টি, তিবশিরানী এবং ফ্রেডম্যানের স্ট্যাটাসটিকাল লার্নিংয়ের উপাদানসমূহের চিত্র 3.11 চিত্রটি অত্যন্ত চিত্রিত:এখানে চিত্র বর্ণনা লিখুন

ব্যাখ্যা: হ'ল বেআইনীভাবে অন্তত স্কোয়ারের অনুমান। লাল উপবৃত্তগুলি (এই চিত্রের শিরোনামে বর্ণিত হিসাবে) পরামিতিগুলির ক্ষেত্রে এবং এর ক্ষেত্রে সর্বনিম্ন স্কোয়ার ত্রুটি ফাংশনের । কোনও বাধা ছাড়াই, ত্রুটি ফাংশনটি এমএলই at এ হ্রাস করা হয় এবং লাল উপবৃত্তগুলি প্রসারিত হওয়ার সাথে সাথে এর মান বৃদ্ধি পায়। হীরা এবং ডিস্কে অঞ্চলে Lasso (জন্য সম্ভবপর অঞ্চলে হয় ) রিগ্রেশন এবং Ridge ( ) রিগ্রেশন যথাক্রমে। তাত্ত্বিকভাবে, প্রতিটি পদ্ধতির জন্য, আমরা লাল উপবৃত্তাকার এবং নীল অঞ্চলটির ছেদটি খুঁজছি কারণ সম্ভাব্যতা বজায় রেখে ত্রুটি ফাংশনটি হ্রাস করা।β^β1β2β^L1L2

বলা হচ্ছে, এটি দেখতে স্পষ্ট যে সীমাবদ্ধতা, যা হীরা সম্ভাব্য অঞ্চলের সাথে সামঞ্জস্য করে, জ্যামিতিক বৈশিষ্ট্যের কারণে সমাধানের একটি উপাদান শূন্য (অর্থাত্ স্পার্স মডেল) রয়েছে এমন একটি ছেদ তৈরি করার সম্ভাবনা বেশি more উপবৃত্ত, ডিস্ক এবং হীরার। এটি কেবল কারণ হীরার কোণ রয়েছে (যার একটি উপাদান শূন্য) যা উপবৃত্তাকার সাথে প্রসারিত উপবৃত্তগুলির সাথে ছেদ করা আরও সহজ।L1


16
চিত্র অতিরিক্ত তথ্য ছাড়া খুব বিশ্বাসযোগ্য নয়। উদাহরণস্বরূপ, ত্রুটির সংক্ষিপ্তসারগুলি যেখানে চিত্রে রয়েছে সেখানে অবস্থিত হওয়া উচিত কেন?
wabbit

@ হৃষীকেশগানু অবশেষে পোস্টটি সম্পাদনা করার জন্য কিছুটা সময় পেল।
Zhanxiong

সমস্ত
রূপরেখার

1
নোট করুন যে এল 1 প্রান্তের সাথে কেবল তখনই অগ্রাধিকার দেওয়া হয় যখন এবং অক্ষের চেয়ে আলাদা আলাদা । অন্য কথায় যখন যখন রেডলাইন বিতরণটি তির্যক অক্ষের । যদি এটি প্রতিসম হয় তবে পুরো প্রান্তে একই দূরত্ব / মান / ব্যয় থাকবে। β^β1β2β1=β2
তুতবিদাস

13

পরিসংখ্যানগত শিক্ষার উপাদানগুলির 3.11 চিত্র (পৃষ্ঠা 71) দেখুন । এটি একটি অসংযুক্ত অবস্থান দেখায় যা স্কোয়ার ত্রুটি ফাংশনকে ন্যূনতম করে, বর্গক্ষেত্রের ত্রুটির কার্যকারিতাটির এবং কোথায় সীমাবদ্ধতার এবং ।β^β^1(β^)<t2(β^)<t

এটি আপনাকে খুব জ্যামিতিকভাবে বুঝতে সহায়তা করবে যা সীমাবদ্ধতার , আপনি কিছু নাল উপাদান পাচ্ছেন। এটি মূলত কারণ বল অক্ষগুলিতে "কিনারা" রয়েছে।11{x:1(x)1}

আরও সাধারণভাবে, এই বইটি এই বিষয়ে একটি ভাল রেফারেন্স: কঠোর এবং ভালভাবে বর্ণিত, দুর্দান্ত ব্যাখ্যা।


3
আমি মনে করি আপনার দ্বিতীয় অনুচ্ছেদটি একটি মূল ... কমপক্ষে আমার অন্তর্দৃষ্টির জন্য: একটি এল 1 "বল" হীরার মতো যা অক্ষ বরাবর স্পাইকযুক্ত, যার অর্থ হিপ্পার প্লেনটি আঘাত করতে বাধ্য হয় এটির শূন্য হওয়ার সম্ভাবনা বেশি থাকে অক্ষ।
ওয়েইন

2
হ্যাঁ, আমি দুটি বাহিনীর কাছে জমা দেওয়া বিন্দুর গতিবিধি হিসাবে অপ্টিমাইজেশন প্রক্রিয়াটি কল্পনা করতে পারি: চৌম্বকীয় ত্রুটির ক্রিয়াকলাপের জন্য নিরবচ্ছিন্ন প্রতি আকর্ষণ, 0 টি থ্রোকের প্রতি আকর্ষণ বা আদর্শের প্রতি আকর্ষণ । এখানে, এই আকর্ষণ বলের "জ্যামিতি" বিন্দুর আচরণ পরিবর্তন করে। আপনি যদি একটি ছোট বা বল করতে পারেন যেখানে এটি অবাধে চলা যায়, তবে এটি কাছাকাছি যাওয়ার জন্য বলের সীমানায় যাবে । ফলাফল উপরে বর্ণিত বইতে চিত্রের উপর দেখানো হয়েছে ...β^1212β^
এলভিস

3
বইটি ভাল, তবে এটি কোথা থেকে এসেছে এবং এর পিছনে গণিত কখনও ব্যাখ্যা করে না।
13985

2

একটি সাধারণ অ গাণিতিক উত্তর হতে পারে:

এল 2 এর জন্য: পেনাল্টি শব্দটি বর্গক্ষেত্র , সুতরাং একটি ছোট মান স্কোয়ারিং এটি আরও ছোট করে তুলবে। ন্যূনতম বর্গ ত্রুটি পেতে আমাদের লক্ষ্য অর্জনের জন্য আমাদের এটি শূন্য করতে হবে না, আমরা এটির আগে এটি পেয়ে যাব।

এটি L1 জন্য: পেনাল্টি মেয়াদ পরম , আমরা পারে প্রয়োজন শূন্য যেতে যেমন আছে ছোট ছোট করতে কোন অনুঘটক

এই আমার দৃষ্টিভঙ্গি।


আমার কাছে খুব বিশ্বাসযোগ্য নয়।
টাইলার 十三 将士 归 玉门

2

এল 1 নরম বনাম এল 2 নরম

চিত্রটি এল 1 এবং এল 2 নর্ম দ্বারা দখলকৃত অঞ্চলের আকারগুলি দেখায়। দ্বিতীয় চিত্রটিতে বিভিন্ন রিগ্রেশন সমস্যার জন্য বিভিন্ন গ্রেডিয়েন্ট বংশোদ্ভূত রূপগুলি রয়েছে। সমস্ত কনট্যুর প্লটে, লাল বৃত্তটি পর্যালোচনা করুন যা রিজ বা এল 2 নর্মকে ছেদ করে। ছেদটি অক্ষের উপরে নেই। সমস্ত রূপরেখার কালো চেনাশোনা এমন একটিকে উপস্থাপন করে যা এল 1 নরম বা লাসোরকে আন্তঃসংযোগ করে। এটি অক্ষের সাথে তুলনামূলকভাবে ছেদ করে। এটি 0 এর সহগ তৈরি করার ফলে ফলাফল নির্বাচন করে। অতএব, L1 আদর্শটি মডেলকে বিরল করে তোলে।

নিম্নলিখিত লিঙ্কে আরও বিস্তারিত ব্যাখ্যা: ডেটা সায়েন্সের দিকে পোস্টে ক্লিক করুন


এটি একটি ভাল ব্যাখ্যা, তবে উদাহরণস্বরূপ ব্যয়গুলির কার্যকারিতা প্রকাশের অতিরিক্ত মন্তব্যটিও কার্যকর হবে। অর্থাত্, এল সার্বজনীন ত্রুটির বৃত্তাকার আকারটি স্বজ্ঞাত বলে মনে হয়, তবে সরু-দীর্ঘায়িত আকার, (বেশিরভাগ অন্যান্য উদাহরণেও ব্যবহৃত হয়), তুচ্ছ এবং স্ব-ব্যাখ্যামূলক বলে মনে হয় না। (এখানে আমি ডুমুর উপরে শীর্ষ বাম ব্যয়ের কাজটি নিয়ে কথা বলছি) (খ): কেন এটির প্রধান দিকটি পয়েন্টের দিকে মুখ করে রয়েছে এবং বলছে না, ? হবে ভিন্ন, এবং পয়েন্ট 0 এ হবে না )β 1 = 1 β 1 = 0 এল 12β1=1β1=0L1
নিউট
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.