যদি পি> এন হয় তবে লাসো বেশিরভাগ এন ভেরিয়েবল নির্বাচন করে


13

ইলাস্টিক নেট এর জন্য অন্যতম অনুপ্রেরণা ছিল লাসোর নিম্নলিখিত সীমাবদ্ধতা:

ইন ক্ষেত্রে, সর্বাধিক Lasso নির্বাচন এন ভেরিয়েবল এটা আগে সুসিক্ত কনভেক্স অপটিমাইজেশন সমস্যা প্রকৃতির কারণে। এটি ভেরিয়েবল নির্বাচন পদ্ধতির সীমিত বৈশিষ্ট্য বলে মনে হয়। তদ্ব্যতীত, সহগের L1- আদর্শের উপর আবদ্ধ একটি নির্দিষ্ট মানের চেয়ে ছোট না হলে লাসোটি ভালভাবে সংজ্ঞায়িত হয় না।p>n

( http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/ful )

আমি বুঝতে পারি যে লাসো একটি চতুষ্কোণ প্রোগ্রামিং সমস্যা তবে লারস বা উপাদান-ভিত্তিক গ্রেডিয়েন্ট বংশোদ্ভূত হয়েও সমাধান করা যেতে পারে। তবে আমি বুঝতে পারছি না এই অ্যালগরিদমগুলিতে আমি কোথায় সমস্যার সম্মুখীন হই যদি যেখানে অনুমানকারীদের সংখ্যা এবং নমুনার আকার। এবং ইলাস্টিক নেট ব্যবহার করে এই সমস্যাটি কেন সমাধান করা হচ্ছে যেখানে আমি সমস্যাটি ভেরিয়েবলগুলিতে বৃদ্ধি করি যা স্পষ্টভাবে ছাড়িয়ে যায় ।পি এন পি + এন পিp>npnp+np


2
যদি লাসো পি <= n রাখার ব্যবহারকে সীমাবদ্ধ করে তবে কেন এটি পুণ্যের পরিবর্তে একটি অনর্থক। ওফিটফিটিং একটি গুরুতর সমস্যা যা পি = এন যখন আসে। পি = এন সহ মডেলটি একটি স্যাচুরেটেড মডেল এবং প্রায়শই সেই মডেলের ওভারফিট হয় কারণ এটি পর্যবেক্ষণ করা ডেটা পুরোপুরি ফিট করে তবে অগত্যা ভবিষ্যতের কেসগুলি ভালভাবে অনুমান করা যায় না।
মাইকেল আর চেরনিক

3
যেহেতু লাসো কেবলমাত্র ভ্যারিয়েবলগুলি নির্বাচন করে, এটি LARS অ্যালগরিদম ব্যবহার করে (এর সামান্য পরিবর্তন) সমাধান করা যেতে পারে তার ফলস্বরূপ দেখা যেতে পারে, যা কেবলমাত্র একবারে সক্রিয় সেটটিতে ভেরিয়েবলগুলি স্বীকার করে । এটি ইলাস্টিক-নেট ক্ষেত্রে ধারণ করে না যে এটি মূলত পেনাল্টি অন্তর্ভুক্তি থেকে অনুসরণ করে এবং তাই রিজ রিগ্রেশনের মতো আচরণ করে, যার পরে সাধারণত সমস্ত সহগের ননজারো হয়ে থাকে। n 2nn2
কার্ডিনাল

উত্তরের জন্য আপনাকে ধন্যবাদ, এবং আমি গ্রেডিয়েন্ট বংশোদ্ভূতদের জন্য কীভাবে দেখতে পাব যে সর্বাধিক n ভেরিয়েবল নির্বাচন করতে পারে: cs.cmu.edu/afs/cs/project/link-3/lafferty/www/ML-stat2/talks/ এ উপস্থাপনা ... কাগজ (অধ্যায় 4) এ datamining.dongguk.ac.kr/papers/GLASSO_JRSSB_V1.final.pdf
user1137731

3
@ ব্যবহারকারীর: আমি মনে করি আপনি গণিতের সমস্যাটিকে এর সংখ্যাসূচক সমাধান দিয়ে সমাধান করতে পারেন। লারস অ্যালগরিদম দেখায় যে লাসো সলিউশন সর্বাধিক ভেরিয়েবল নির্বাচন করবে । সমাধানে আসার জন্য এটি প্রকৃত সংখ্যাসূচক পদ্ধতির থেকে পৃথক, যেমন, এলএআরএস আলগোরিদিম সমস্যাটি সম্পর্কে অন্তর্দৃষ্টি দেয়, তবে অবশ্যই অন্য যে কোনও পদ্ধতি যা সমানভাবে সমস্যার সমাধান করে তার একই সম্পত্তি থাকতে হবে! :-)n
কার্ডিনাল

বৈশিষ্ট্য সদৃশ একটি বৈশিষ্ট্য বিবেচনা করুন । ঠিক পি নঞ্জেরো সহ একটি লাসো অনুমানক উপস্থিত থাকবে (এমনকি পি > এন ) সুতরাং আপনার বক্তব্য লিখিত হিসাবে সত্য নয়। ppp>n
ব্যবহারকারী795305

উত্তর:


10

βj|Xjt(yXβ)|=λλ

Xnp>n

L2


কেকেটি কী বোঝায়? এছাড়াও, স্ট্যান্ডার্ড লাসো সম্পর্কে কথা বলার সময় আপনার কি এল 1 ক্ষতি হতে পারে?
মিউরা

হাই সাহারন এবং সাইটে আপনাকে স্বাগতম। আপনি সূত্রগুলি আরও সুন্দর করে তৈরি করতে ল্যাটেক্স ব্যবহার করতে পারেন (আমি আপনার উত্তরে এটি করেছি) এবং স্বাক্ষরটি স্বয়ংক্রিয়ভাবে যুক্ত হওয়ার সাথে আপনার নিজের পোস্টগুলিতে স্বাক্ষর করতে হবে না।
পিটার Flom - পুনর্বহাল মনিকা

1
@ মিউউরা: কেকেটি বলতে কারুশ-কুহান-টকারকে বোঝায়। কেকেটি শর্তাবলী এমন কিছু নির্দিষ্ট সমীকরণ যা অপটিমাইজেশন সমস্যার (পর্যাপ্ত নিয়মিত) সমাধানগুলি অবশ্যই পূরণ করতে হবে ( উইকিপিডিয়া নিবন্ধ )।
মোগ্রন

আমি শুধু দেখতে যে রায়ান Tibshirani একটি খুব প্রাসঙ্গিক ওয়ার্কিং পেপার আছে ', Lasso সমস্যা এবং স্বতন্ত্রতা।': Stat.cmu.edu/~ryantibs/papers/lassounique.pdf
user1137731

6

n<pXnpnzβpnpβ+zn βj

yX(β+z)22+λβ+z1=yXβ22+λβ+z1<yXβ22+λβ1

হ্রাস পেয়েছে.


(+1) এখানে একটি ফাঁক রয়েছে: ওপিএস পোস্টে আমার মন্তব্য দেখুন।
ব্যবহারকারী795305
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.