লাসো কেন পরিবর্তনীয় নির্বাচন সরবরাহ করে?


76

আমি পরিসংখ্যানগত শিক্ষার উপাদানগুলি পড়ছি এবং আমি জানতে চাইছি কেন লাসো পরিবর্তনশীল নির্বাচন এবং রিজ রিগ্রেশনটি সরবরাহ করে না।

উভয় পদ্ধতি স্কোয়ারের অবশিষ্টাংশকে ছোট করে এবং পরামিতিগুলির সম্ভাব্য মানগুলি একটি সীমাবদ্ধতা রাখে । লাসোর জন্য, প্রতিবন্ধকতা হ'ল , অন্যদিকে কিছুটা জন্য এটি ।β||β||1t||β||2tt

আমি বইটিতে হীরা বনাম উপবৃত্তাকার ছবিটি দেখেছি এবং লাসো কেন বদ্ধ অঞ্চলের কোণে আঘাত করতে পারে তার জন্য আমার কিছুটা অন্তর্দৃষ্টি রয়েছে, যার দ্বারা বোঝা যায় যে সহগগুলির মধ্যে একটি শূন্যে সেট করা আছে। যাইহোক, আমার স্বজ্ঞাততা বরং দুর্বল, এবং আমি বিশ্বাস করি না। এটি দেখতে সহজ হওয়া উচিত, তবে কেন এটি সত্য তা আমি জানি না।

সুতরাং আমি অনুমান করি যে আমি একটি গাণিতিক ন্যায়সঙ্গততা বা বর্গক্ষেত্রের অবশিষ্টাংশের সংখ্যাগুলি কেন অঞ্চলের কোণগুলিতে আঘাত হানতে পারে তার একটি অন্তর্নিহিত ব্যাখ্যা খুঁজছি (যদিও এই অবস্থার সম্ভাবনা নেই যদি সীমাবদ্ধতা হ'ল )।||β||1||β||2


নীচের সমস্ত উত্তর ভাল ব্যাখ্যা। তবে আমি ভিজ্যুয়াল উপস্থাপনা সহ একটি নিবন্ধ রেখেছি। অনুসরণ করা হয় লিংক medium.com/@vamsi149/...
solver149

উত্তর:


70

এর একটি খুব সহজ মডেল বিবেচনা করা যাক: উপর একটি হল L1 শাস্তি সঙ্গে, এবং এর একটি লিস্ট স্কোয়ারগুলির ক্ষতি ফাংশন । আমরা হ'ল সংক্ষিপ্তকরণ হিসাবে এক্সপ্রেশনটি প্রসারিত করতে পারি:y=βx+eβ^e^

minyTy2yTxβ^+β^xTxβ^+2λ|β^|

আসুন ধরে নেওয়া যাক ন্যূনতম-স্কোয়ার সমাধানটি হ'ল কিছু , যা এই ধরে নেওয়া সমান এবং আমরা যখন এল 1 জরিমানা যুক্ত করি তখন কী ঘটে তা দেখুন। সাথে , , সুতরাং শাস্তির মেয়াদ সমান । উদ্দেশ্যমূলক ক্রিয়াটি t of এর ডেরাইভেটিভ হ'ল:β^>0yTx>0β^>0|β^|=β^2λββ^

2yTx+2xTxβ^+2λ

স্পষ্টতই এর সমাধান রয়েছে । β^=(yTxλ)/(xTx)

স্পষ্টতই বাড়িয়ে আমরা drive zero শূন্যে ( ) চালাতে পারি । তবে একবার গেলে বাড়িয়ে নেতিবাচক দিকে চালিত করবে না, কারণ শিথিলভাবে লিখলে তাত্ক্ষণিকভাবে negative নেতিবাচক হয়ে যায়, উদ্দেশ্যগত ক্রিয়াকলাপের ডেরাইভেটিভ এতে পরিবর্তিত হয়:λβ^λ=yTxβ^=0λβ^

2yTx+2xTxβ^2λ

যেখানে শাস্তি শর্তের নিখুঁত মান প্রকৃতির কারণে র সাইন ইন ফ্লিপ হয় ; যখন নেতিবাচক হয়ে, শাস্তি মেয়াদ সমান হয়ে , এবং উপজাত wrt গ্রহণ ফলাফল । এটি সমাধানের দিকে নিয়ে যায় , যা স্পষ্টতই inc (যে সর্বনিম্ন স্কোয়ার সমাধান , যা এবং বোঝায়λβ2λββ2λβ^=(yTx+λ)/(xTx)β^<0>0yTx>0λ>0)। 1 থেকে থেকে সরানোর সময় এল 1 জরিমানার বৃদ্ধি এবং স্কোয়ার ত্রুটি শর্তের বৃদ্ধি (যেমন আমরা কমপক্ষে স্কোয়ার সমাধান থেকে আরও এগিয়ে চলেছি) , তাই আমরা না, আমরা কেবল stick ।β^0<0β^=0

Int দিয়ে কমপক্ষে স্কোয়ার সমাধানের জন্য উপযুক্ত চিহ্নের পরিবর্তনের সাথে একই যুক্তি প্রযোজ্য তা স্বজ্ঞাতভাবে পরিষ্কার হওয়া উচিত । β^<0

সর্বনিম্ন স্কোয়ার্স পেনাল্টি সহ , তবে, ডেরাইভেটিভ হয়:λβ^2

2yTx+2xTxβ^+2λβ^

স্পষ্টতই এর সমাধান রয়েছে । স্পষ্টতই কোনও বৃদ্ধি এটিকে পুরোপুরি শূন্যের দিকে চালিত করবে না। সুতরাং এল 2 পেনাল্টি কিছু হালকা বিজ্ঞাপন-হকারি ব্যতীত চলক নির্বাচনের সরঞ্জাম হিসাবে কাজ করতে পারে না যেমন "প্যারামিটারের অনুমানটি যদি psপ্সিলনের চেয়ে কম হয় তবে শূন্যের সমান হবে "। β^=yTx/(xTx+λ)λϵ

স্পষ্টতই যখন আপনি মাল্টিভারিয়েট মডেলগুলিতে যান তখন জিনিসগুলি পরিবর্তিত হতে পারে, উদাহরণস্বরূপ, একটি পরামিতি অনুমানের চারপাশে সরিয়ে নেওয়া অন্যটিকে সাইন পরিবর্তন করতে বাধ্য করতে পারে, তবে সাধারণ নীতিটি একই: এল 2 পেনাল্টি ফাংশনটি আপনাকে শূন্যের সমস্ত পথে পেতে পারে না, কারণ, খুব তাত্ত্বিকভাবে লেখা, এটি কার্যকরভাবে for এর জন্য অভিব্যক্তির "ডিনোমিনেটর" যুক্ত করে তবে এল 1 পেনাল্টি ফাংশনটি করতে পারে, কারণ এটি কার্যকরভাবে "অংক "কে যুক্ত করে। β^


লাসো অ-রৈখিক মডেলগুলির ক্ষেত্রে যেমন বৈশিষ্ট্য নির্বাচন প্রদান করে, যেমন এনএন?
ইলিয়া

একটি ছোট্ট ফলো-আপ প্রশ্ন: কীভাবে হতে পারে যদি ভেক্টর এবং একটি স্কেলার হয় যা আমরা ফিট খুঁজে পেতে আলাদা করতে পারি? λ=yTxyTxλ
জেকেরিনা কোকাতজুহা

আমি একটি অবিচ্ছিন্ন উদাহরণ ব্যবহার করছিলাম, তাই একটি স্কেলার। আপনি যদি একটি বহুচলকীয় সমস্যা সমাধানের হয়, তাহলে দৈর্ঘ্য সঙ্গে বেশী একটি ভেক্টর দ্বারা গুন পরার = আকার বা সুসংগত মাপের পরিচয় ম্যাট্রিক্স, নির্ভর করে যার উপর সমস্যার সমাধান করা হচ্ছে। উদাহরণস্বরূপ, = এর এল 2-আদর্শ এবং উপরের সূত্রগুলিতে প্রতিস্থাপন তৈরি করে আপনি এটি কাজ করতে পারেন। yTxλβzzTIz
jbowman

পেনাল্টি ফাংশনের নিখুঁত প্রকৃতির কারণে ল্যাম্বডায় সাইন কীভাবে উল্টে যায় (গণিত?) তা দেখানো সম্ভব হবে কেননা আমি যুক্তির এই বিটটি অনুসরণ করতে অক্ষম হচ্ছি?
ব্যবহারকারী 1420372

@ ব্যবহারকারী 1420372 - করেছেন; আমার সম্পর্কে আপনি কী মনে করেন জানি.
jboman

9

ধরুন আমাদের কাছে y = 1 এবং x = [1/10 1/10] (একটি ডেটা পয়েন্ট, দুটি বৈশিষ্ট্য) সহ একটি ডেটা সেট রয়েছে। একটি সমাধান বৈশিষ্ট্যগুলির মধ্যে একটি বাছাই করা, অন্য বৈশিষ্ট্য হ'ল উভয় বৈশিষ্ট্যের ওজন weight অর্থাৎ আমরা হয় ডাব্লু = [5 5] বা ডাব্লু = [10 0] বাছাই করতে পারি।

মনে রাখবেন যে L1 আদর্শের জন্য উভয়ের জন্য একই পেনাল্টি রয়েছে তবে আরও ছড়িয়ে পড়া ওজনের L2 আদর্শের জন্য কম পেনাল্টি রয়েছে।


8

আমি মনে করি ইতিমধ্যে চমত্কার আনার রয়েছে তবে জ্যামিতিক ব্যাখ্যা সম্পর্কে কিছু অন্তর্দৃষ্টি যুক্ত করতে:

"লাসো সংকোচন সম্পাদন করে , যাতে সীমাবদ্ধতায়" কোণগুলি "থাকে, যা দুটি মাত্রায় একটি হীরকের সাথে মিলে যায় If শূন্য।L1

হিসাবে বৃদ্ধি, বহুমাত্রিক হীরা কোণে সংখ্যা ক্রমেই বেড়ে আছে, এবং তাই এটি অত্যন্ত সম্ভবত কিছু কোফিসিয়েন্টস শূন্য সমান সেট করা হবে না। সুতরাং, লাসো সংকোচন এবং (কার্যকরভাবে) উপসেট নির্বাচন সম্পাদন করে।p

সাবসেট নির্বাচনের বিপরীতে, রিজ একটি নরম প্রান্তিককরণ সম্পাদন করে: স্মুথিং প্যারামিটারটি যেমন পরিবর্তিত হয়, অনুমানের নমুনা পথটি ধারাবাহিকভাবে শূন্যে চলে যায়। "

সূত্র: https : //onlinecourses.s ज्ञान. psu.edu/stat857/book/export/html/137

রঙটি রেখাগুলি শূন্যের দিকে সঙ্কুচিত রিগ্রেশন সহগগুলির পাথ যেখানে রঙটি কার্যকরভাবে ভিজ্যুয়ালাইজ করা যায়।

এখানে চিত্র বর্ণনা লিখুন

"রিজ রিগ্রেশন সমস্ত রিগ্রেশন কোটিফিয়েন্টসকে শূন্যের দিকে সঙ্কুচিত করে; লাসো শূন্যের প্রতিরোধের সহগগুলির একটি সেট দেয় এবং একটি বিচ্ছিন্ন সমাধানের দিকে নিয়ে যায়।"

এখানে চিত্র বর্ণনা লিখুন

সূত্র: https://onlinecourses.science.psu.edu/stat857/node/158

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.