কেন গ্লমনেট চিড়িয়াখানা এবং হাস্টি মূল কাগজ থেকে "নিষ্পাপ" ইলাস্টিক নেট ব্যবহার করে?


27

মূল ইলাস্টিক নেট পেপার Zou & Hastie (2005) লিনিয়ার রিগ্রেশন জন্য ইলাস্টিক নেট ক্ষতি ফাংশন চালু ইলাস্টিক নেট মাধ্যমে নিয়মিতকরণ এবং পরিবর্তনশীল নির্বাচন (এখানে আমি ধরে নিচ্ছি যে সমস্ত ভেরিয়েবল কেন্দ্রিক এবং ইউনিট বৈকল্পিকের জন্য ছোট আকারে আছে): কিন্তু একে " ইলাস্টিক" বলে। তাদের যুক্তি ছিল যে এটি ডাবল সংকোচনের (লাসো এবং রিজ) সঞ্চালন করে, অতিরিক্ত সঙ্কুচিত হওয়ার ঝোঁক থাকে এবং ফলস্বরূপ সমাধানটি নিম্নরূপে উদ্ধার করে উন্নত করা যায়: \ টুপি \ বিটা ^ * = (1+ \ ল্যাম্বদা_2) \ টুপি \ বিটা। তারা কিছু তাত্ত্বিক যুক্তি এবং পরীক্ষামূলক প্রমাণ দিয়েছে যে এটি আরও ভাল পারফরম্যান্সের দিকে নিয়ে যায়।

L=1nyXβ2+λ1β1+λ2β22,
β^=(1+λ2)β^.

তবে পরবর্তী glmnetকাগজ ফ্রেডম্যান, হাসিটি এবং তিবশিরানী (২০১০) স্থায়ী বংশোদ্ভূত মাধ্যমে সাধারণ রৈখিক মডেলের নিয়মিতকরণের পথগুলি এই পুনরুদ্ধারটি ব্যবহার করে নি এবং কেবল একটি সংক্ষিপ্ত পাদটীকা বলেছিল

মালভূমি এবং Hastie (2005) এই শাস্তি নামক সাদাসিধা ইলাস্টিক নেট, এবং একটি rescaled সংস্করণ যা তারা ইলাস্টিক নেট নামক পছন্দ করল। আমরা এই পার্থক্য এখানে ড্রপ।

সেখানে (বা হাস্টি এট আল পাঠ্যপুস্তকের কোনওটিতে) আর কোনও ব্যাখ্যা দেওয়া হয়নি। আমি এটি কিছুটা বিস্মিত মনে। লেখক ছেড়ে কি আউট rescaling কারণ তারা এটা খুব বিবেচিত তদর্থক ? কারণ এটি আরও কিছু পরীক্ষায় আরও খারাপ অভিনয় করেছে? কারণ এটি পরিষ্কার ছিল না যে কীভাবে এটি জিএলএম ক্ষেত্রে সাধারণীকরণ করবেন? আমার কোন ধারণা নাই. তবে যে কোনও ক্ষেত্রে glmnetপ্যাকেজটি তখন থেকেই খুব জনপ্রিয় হয়ে উঠেছে এবং তাই আমার ধারণাটি হ'ল আজকাল কেউইউউউ ও হাস্টি থেকে উদ্ধার ব্যবহার করছে না এবং বেশিরভাগ মানুষ সম্ভবত এই সম্ভাবনা সম্পর্কে সচেতনও নয়।

প্রশ্ন: সর্বোপরি, এটি একটি ভাল ধারণা বা খারাপ ধারণা উদ্ধার করেছিল?

সঙ্গে glmnetparametrization, মালভূমি ও Hastie rescaling হওয়া উচিত

β^=(1+λ(1α))β^.

1
যেহেতু গ্লামেন্ট পেপারে, লক্ষ্যটি নিয়মিতকরণের পুরো পথে ফিট করা সম্ভব, সম্ভবত ধারণাটি এই যে উদ্ধারটি কেবল পথের একঘেয়ে রূপান্তর হবে?
ম্যাথু ড্রুরি

1
@ ম্যাথেজড্রুরি এটি সত্য তবে এখনও ফ্রেডম্যান এট আল থাকলে। বিশ্বাস করে যে উদ্ধার করা একটি ভাল ধারণা, তারা এটিকে কাগজ এবং বিশেষত glmnetকোডের বাইরে রেখে দেবে না । এটি সেখানে optionচ্ছিক বৈশিষ্ট্য হিসাবেও পাওয়া যায় না (2005 এর পেপারের সাথে তাদের পূর্বের কোড অবশ্যই পুনরুদ্ধারের সমর্থন করে)।
অ্যামিবা বলেছেন

4
দুর্ভাগ্যক্রমে, জনসাধারণের গ্ল্যামনেট কোডটি সম্পূর্ণ অপঠনযোগ্য ...
ম্যাথু ড্রুরি

উত্তর:


25

আমি এই প্রশ্নটি জৌ এবং হাসিটির কাছে ইমেল করেছি এবং হাসটিয়ের নিম্নলিখিত উত্তর পেয়েছি (আমি আশা করি তিনি এখানে আমার উদ্ধৃতি দিয়ে কিছু মনে করবেন না):

আমি মনে করি জো এট আল-এ আমরা অতিরিক্ত পক্ষপাত সম্পর্কে চিন্তিত ছিলাম, তবে অবশ্যই উদ্ধার করা বৈচিত্রকে বাড়িয়ে তোলে। সুতরাং এটি কেবল পক্ষপাত-বৈকল্পিক ট্রেড অফ বক্ররেখার সাথে একটি স্থানান্তরিত করে। আমরা শীঘ্রই রিল্যাক্সড লাসোর একটি সংস্করণ অন্তর্ভুক্ত করব যা উদ্ধারের আরও ভাল ফর্ম।

আমি এই শব্দগুলিকে ভ্যানিলা ইলাস্টিক নেট সলিউশনটির কিছুটা "উদ্ধার" এর অনুমোদনের হিসাবে ব্যাখ্যা করি , তবে হাস্টি জু ও অ্যান্ডি 2005 সালে যে নির্দিষ্ট পদ্ধতির সামনে রেখেছিল তা আর দাঁড়ায় না বলে মনে হয়।


নীচে আমি সংক্ষেপে কয়েকটি উদ্ধার বিকল্পগুলির সাথে পর্যালোচনা করব এবং তুলনা করব।

আমি glmnetক্ষতির সমাধানটিকে হিসাবে চিহ্নিত করা হয় ।

L=12nyβ0Xβ2+λ(αβ1+(1α)β22/2),
β^
  1. Zou এবং Hastie এর ব্যবহার হলনোট করুন pure যা তাত্ক্ষণিকভাবে প্রচুর পরিমাণে বোঝা যায় না, যখন এটি খাঁটি রিজের জন্য কিছু অ-তুচ্ছ পুনরুদ্ধার করে। অন্যদিকে, এই উৎপাদনের কোন বিশুদ্ধ Lasso জন্য rescaling যখন , সাহিত্য বিভিন্ন দাবি Lasso মূল্নির্ধারক কিছু rescaling থেকে উপকৃত হতে পারে যে সত্ত্বেও (নিচে দেখুন)।

    β^rescaled=(1+λ(1α))β^.
    α=0α=1
  2. খাঁটি লাসোর জন্য, তিবশিরানী লাসো-ওএলএস হাইব্রিড ব্যবহার করার পরামর্শ দিয়েছেন, অর্থাৎ লাসো দ্বারা নির্বাচিত ভবিষ্যদ্বাণীগুলির উপসেটটি ব্যবহার করে ওএলএসের অনুমানকারী ব্যবহার করার পরামর্শ দিয়েছেন। এটি অনুমানকারীকে সামঞ্জস্যপূর্ণ করে তোলে (তবে সংকোচনকে পূর্বাবস্থায় ফিরিয়ে আনে, যা প্রত্যাশিত ত্রুটি বাড়িয়ে তুলতে পারে)। ইলাস্টিক নেট জন্য কেউ একই পদ্ধতি ব্যবহার করতে পারে তবে সম্ভাব্য সমস্যাটি হ'ল ইলাস্টিক নেট নির্বাচন করতে পারে অনুমানকারী এবং ওএলএস-এর চেয়ে বেশি বিচ্ছিন্ন হয়ে যাবে (বিপরীতে, খাঁটি লাসো কখনই প্রেডিকটারের চেয়ে বেশি নির্বাচন করে না )।

    β^elastic-OLS-hybrid=OLS(Xiβ^i0)
    nn
  3. উপরে উদ্ধৃত হাস্টির ইমেলটিতে উল্লিখিত স্বচ্ছ লাসো প্রথম লাসো দ্বারা নির্বাচিত ভবিষ্যদ্বাণীদের সাবসেটে আরেকটি লাসো চালানোর পরামর্শ। ধারণাটি হ'ল দুটি পৃথক জরিমানা ব্যবহার করা এবং ক্রস-বৈধকরণের মাধ্যমে উভয়ই নির্বাচন করা । কেউ ইলাস্টিক নেট এ একই ধারণা প্রয়োগ করতে পারে, তবে এর জন্য চারটি পৃথক নিয়মিতকরণ পরামিতি প্রয়োজন এবং সেগুলি সুর করা একটি দুঃস্বপ্ন।

    আমি সহজ সুপারিশ নিরুদ্বেগ ইলাস্টিক নেট স্কীম: প্রাপ্তির পর , সঙ্গে শৈলশিরা রিগ্রেশন সম্পাদন এবং একই : ভবিষ্যতবক্তা নির্বাচিত উপসেট উপরএর জন্য (ক) অতিরিক্ত কোনও নিয়মিতকরণের প্যারামিটারের প্রয়োজন হয় না, (খ) নির্বাচিত যে কোনও সংখ্যক ভবিষ্যদ্বাণীকারীর জন্য কাজ করে এবং (সি) খাঁটি শৃঙ্খলা দিয়ে শুরু করলে কিছু করা যায় না। আমার ভাল লাগছে।β^α=0λ

    β^relaxed-elastic-net=Ridge(Xiβ^i0).

আমি বর্তমানে একটি ছোট সঙ্গে কাজ করছি ডেটা সেটটি সঙ্গে এবং , যেখানে ভাল কয়েক নেতৃস্থানীয় পিসিতে দ্বারা পূর্বাভাস দেওয়া যায় । আমি 100x পুনরাবৃত্তি 11-ভাঁজ ক্রস-বৈধতা ব্যবহার করে উপরের অনুমানের পারফরম্যান্সটি তুলনা করব। পারফরম্যান্স মেট্রিক হিসাবে, আমি পরীক্ষার ত্রুটিটি ব্যবহার করছি, একটি আর-স্কোয়ারের মতো কিছু উপার্জনের জন্য স্বাভাবিককরণ করেছি:নীচের চিত্রটিতে ড্যাশযুক্ত রেখাগুলি ভ্যানিলা ইলাস্টিক নেট অনুমানক এবং তিনটি সাবপ্লট তিনটি উদ্ধার পদ্ধতির সাথে সামঞ্জস্য করছে:npn=44p=3000yX

Rtest2=1ytestβ^0Xtestβ^2ytestβ^02.
β^

এখানে চিত্র বর্ণনা লিখুন

সুতরাং, অন্তত এই ডেটাগুলিতে, তিনটি পন্থা ভ্যানিলা ইলাস্টিক নেট অনুমানককে ছাড়িয়ে যায় এবং "রিলাক্স ইলাস্টিক নেট" সেরা অভিনয় করে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.