ইলাস্টিক নেট নিয়মিতকরণ কী কী এবং এটি কীভাবে রিজ (


35

ইলাস্টিক নেট নিয়মিতকরণ কি সবসময়ই লাসো এবং রিজকে প্রাধান্য দেয় যেহেতু এই পদ্ধতির ত্রুটিগুলি সমাধান করার জন্য মনে হয়? অন্তর্দৃষ্টি কী এবং ইলাস্টিক জালের পিছনে গণিতটি কী?


6
Hastie এট আল দেখুন। "পরিসংখ্যান শিক্ষার উপাদানসমূহ" অধ্যায় 3 এবং 18 (অনুসন্ধান "ইলাস্টিক নেট")।
রিচার্ড হার্ডি

উত্তর:


42

1. কোন পদ্ধতিটি প্রাধান্য দেওয়া হয়?

হ্যাঁ, ইলাস্টিক নেট সবসময়ই লাসো ও রিজ রিগ্রেশনগুলির চেয়ে বেশি পছন্দ করা হয় কারণ এটি উভয় পদ্ধতির সীমাবদ্ধতা সমাধান করে, পাশাপাশি প্রতিটিকে বিশেষ ক্ষেত্রেও অন্তর্ভুক্ত করে। সুতরাং যদি রিজ বা লাসো সলিউশনটি প্রকৃতপক্ষে সেরা হয় তবে কোনও ভাল মডেল নির্বাচনের রুটিন এটি মডেলিং প্রক্রিয়ার অংশ হিসাবে চিহ্নিত করতে পারে।

আমার পোস্টের মন্তব্যগুলি উল্লেখ করেছে যে ইলাস্টিক নেট এর সুবিধাগুলি অযোগ্য নয়। আমি আমার বিশ্বাসে অবিচল রয়েছি যে ইলাস্টিক নেট রিগ্রেশনটির সাধারণতা এখনও L1 বা L2 এর নিজের দ্বারা নিয়মিতকরণের চেয়ে ভাল। বিশেষত, আমি মনে করি যে আমি এবং অন্যদের মধ্যে মতবিরোধের পয়েন্টগুলি মডেলিং প্রক্রিয়াটি সম্পর্কে আমরা যে অনুমানগুলি করতে ইচ্ছুক তার সাথে সরাসরি আবদ্ধ। অন্তর্নিহিত ডেটা সম্পর্কে দৃ strong় জ্ঞানের উপস্থিতিতে কিছু পদ্ধতি অন্যদের কাছে অগ্রাধিকার পাবে। যাইহোক, ইলাস্টিক নেট এর জন্য আমার পছন্দটি আমার সংশয়বাদে জড়িত যে কেউ আত্মবিশ্বাসের সাথে জানতে পারে যে L1 বা L2 আসল মডেল।

  1. দাবি: পূর্ব জ্ঞান ইলাস্টিক নেট রিগ্রেশন ব্যবহারের প্রয়োজনগুলির মধ্যে একটিটিকে বাধা দিতে পারে।

এটি কিছুটা বৃত্তাকার। যদি এটি কিছুটা গ্লিব হয় তবে আমাকে ক্ষমা করুন, তবে আপনি যদি জানেন যে লাসো (রিজ) সেরা সমাধান, তবে আপনি কীভাবে উপযুক্তভাবে এটির মডেল করবেন তা আপনি নিজেকে জিজ্ঞাসা করবেন না; আপনি কেবল একটি লাসো (রিজ) মডেল ফিট করবেন। যদি আপনি পুরোপুরি নিশ্চিত হন যে সঠিক উত্তরটি লাসো (রিজ) রিগ্রেশন, তবে আপনি স্পষ্টভাবে নিশ্চিত হন যে ইলাস্টিক জালের সাথে সময় নষ্ট করার কোনও কারণ নেই reason তবে আপনি যদি লাসো (রিজ) সঠিকভাবে এগিয়ে যাওয়ার সঠিক উপায় কিনা তবে আপনি যদি কিছুটা কম নিশ্চিত হন তবে আমি বিশ্বাস করি যে আরও নমনীয় মডেলটি অনুমান করা আমাদের পক্ষে বোধগম্য, এবং ডেটা পূর্বের বিশ্বাসকে কতটা দৃ strongly়তার সাথে সমর্থন করে তা মূল্যায়ন করে।

  1. দাবি: সামান্য পরিমাণে বড় ডেটা L1 বা L2 সমাধানগুলি পছন্দ হিসাবে চিহ্নিত করার অনুমতি দেবে না , এমনকি যখন L1 বা L2 সমাধানটি সত্য মডেল হয়।

এটাও সত্য, কিন্তু আমি মনে করি এটা একটি অনুরূপ কারণে বিজ্ঞপ্তি দেওয়া হল: আপনি একটি সন্তোষজনক সমাধান আনুমানিক এবং যে এটি করেছি α{0,1}, তারপর মডেল যে ডেটা সমর্থন যে। একদিকে, হ্যাঁ, আপনার আনুমানিক মডেলটি সত্যিকারের মডেল নয়, তবে আমার অবশ্যই অবাক হতে হবে যে কোনও মডেল অনুমানের আগে সত্য মডেলটি α=1 (বা α=0 ) হয় তা কীভাবে জানতে পারে। এমন ডোমেইন থাকতে পারে যেখানে আপনার এই ধরণের পূর্ব জ্ঞান রয়েছে তবে আমার পেশাগত কাজ সেগুলির মধ্যে একটি নয়।

  1. দাবি: অতিরিক্ত হাইপারপ্যারামিটার উপস্থাপন মডেলটির অনুমানের গণনা ব্যয়কে বাড়িয়ে তোলে।

আপনার কেবল সময় / কম্পিউটারের সীমাবদ্ধতা থাকলে এটি কেবল প্রাসঙ্গিক; অন্যথায় এটি কেবল উপদ্রব। ইএলাস্টিক নেট সমাধানগুলি অনুমান করার জন্য জিএলএমনেট হ'ল স্বর্ণ-মানক অ্যালগরিদম। ব্যবহারকারী আলফা কিছু মান সরবরাহ, এবং এটি দ্রুত নিয়মিতকরণ সমাধান পথে বৈশিষ্ট্য ব্যবহার দণ্ডনীয়তা মাত্রার মূল্যবোধের বিভিন্ন মডেলের একটি পরিবার অনুমান λ , এবং এটি প্রায়ই মাত্র আনুমানিক হিসাব চেয়ে আরও দ্রুত সমাধান এই পরিবার অনুমান করতে পারেন একটি নির্দিষ্ট মানের জন্য একটি সমাধান λ । তাই, হ্যাঁ, GLMNET ব্যবহার গ্রিড-শৈলী পদ্ধতি ব্যবহার করে ডোমেনে আপনি হস্তান্তর করে (এর কিছু মান পুনরুক্তি উপর α এবং বিভিন্ন চেষ্টা GLMNET দিন λ গুলি), কিন্তু এটা বেশ দ্রুত।

  1. দাবি: লাসো বা রিজ রিগ্রেশনের উপর স্থিতিস্থাপক জালের উন্নত পারফরম্যান্সের গ্যারান্টি নেই।

এটি সত্য, তবে যে পদক্ষেপে কেউ কোন পদ্ধতিটি ব্যবহার করবেন সে সম্পর্কে চিন্তাভাবনা করছেন, কোনও স্থিতিস্থাপক নেট, রিজ বা ল্যাসো সবচেয়ে ভাল তা জানতে পারবেন না। যদি একটি কারণ হয় যে সর্বোত্তম সমাধানটি লাসো বা রিজ রিগ্রেশন হতে পারে তবে আমরা দাবির ডোমেনে আছি (1)। যদি আমরা এখনও অনিশ্চিত হয়ে থাকি যা কোনটি সর্বোত্তম, তবে আমরা লাসো, রিজ এবং ইলাস্টিক নেট সমাধানগুলি পরীক্ষা করতে পারি এবং সেই সময়ে একটি চূড়ান্ত মডেল বেছে নিতে পারি (বা আপনি যদি একাডেমিক হন তবে কেবল তিনটি সম্পর্কেই আপনার কাগজটি লিখুন )। পূর্ববর্তী অনিশ্চয়তার এই পরিস্থিতিটি হয় আমাদের দাবি (2) এর ডোমেনে রাখবে, যেখানে আসল মডেলটি ল্যাসো / রিজ তবে আমরা সময়ের আগে এতটা জানতাম না, এবং আমরা দুর্ঘটনাক্রমে দুর্বল চিহ্নিত হাইপারপ্যারামিটারগুলির কারণে ভুল মডেলটি নির্বাচন করি, বা ইলাস্টিক নেট আসলে সেরা সমাধান।

  1. দাবি: ক্রস-বৈধতা ছাড়াই হাইপারপ্যারামিটার নির্বাচন অত্যন্ত পক্ষপাতদুষ্ট এবং ত্রুটি-প্রবণ

উপযুক্ত মডেল বৈধতা যেকোন মেশিন লার্নিং এন্টারপ্রাইজের একটি অবিচ্ছেদ্য অঙ্গ। মডেল বৈধতা সাধারণত একটি ব্যয়বহুল পদক্ষেপ, সুতরাং এখানে কেউ অদক্ষতা কমিয়ে আনতে চাইবে - যদি সেই অদক্ষতার একটির অকারণে চেষ্টা করা হয় α যে মূল্যবোধগুলি নিরর্থক বলে পরিচিত হয়, তবে একটি পরামর্শ তা করতে হবে। হ্যাঁ, সমস্ত উপায়ে এটি করুন, আপনি কীভাবে আপনার ডেটা সাজানো হয়েছে সে সম্পর্কে দৃ making় বিবৃতি দিয়ে স্বাচ্ছন্দ্য বোধ করেন - তবে আমরা দাবি (1) এবং দাবির (2) অঞ্চলে ফিরে এসেছি।

2. ইলাস্টিক জালের পিছনে অন্তর্দৃষ্টি এবং গণিত কী?

আমি ইলাস্টিক নেট উপর মূল কাগজ দিয়ে শুরু, এই পদ্ধতিগুলিতে সাহিত্য পড়ার দৃ strongly় পরামর্শ দিচ্ছি। কাগজ স্বজ্ঞাত এবং গণিত বিকাশ, এবং উচ্চ পঠনযোগ্য। এখানে এটি পুনরুত্পাদন করা কেবলমাত্র লেখকদের ব্যাখ্যার ক্ষতিকারক হবে। কিন্তু উচ্চ পর্যায়ের সারসংক্ষেপ যে ইলাস্টিক নেট শৈলশিরা এবং Lasso দণ্ডের একটি উত্তল সমষ্টি, তাই মত একটি গসিয়ান ত্রুটি মডেল সৌন্দর্য জন্য উদ্দেশ্য ফাংশন

Residual Mean Square Error+αRidge Penalty+(1α)LASSO Penalty

জন্য α[0,1].

হুই জউ এবং ট্রেভর হাসি। " ইলাস্টিক নেট এর মাধ্যমে নিয়মিতকরণ এবং পরিবর্তনশীল নির্বাচন selection " জেআর পরিসংখ্যান। সস।, খণ্ড 67 (2005), খণ্ড 2., পৃষ্ঠা 301-320।

রিচার্ড হার্ডি উল্লেখ করেছেন যে এটি আরও বিস্তারিতভাবে হাসটি এট আল-তে উন্নত। "পরিসংখ্যান শিক্ষার উপাদানসমূহ" অধ্যায় 3 এবং 18।

৩. আপনি যদি অতিরিক্ত Lq মান যোগ করেন ?

মন্তব্যগুলিতে এটি আমার কাছে উত্থাপিত একটি প্রশ্ন:

আপনার দৃষ্টিভঙ্গির বিপরীতে আমাকে আরও একটি যুক্তি দেওয়ার পরামর্শ দিন যে স্থিতিস্থাপক নেট একা লাসো বা রিজের চেয়ে সমানভাবে ভাল। কল্পনা করুন যে, আমরা ইলাস্টিক নেট খরচ ফাংশন অন্য শাস্তি যোগ করুন, যেমন একটি L3 একটি hyperparameter সঙ্গে খরচে, γ । আমি মনে করি না যে অনেক গবেষণা আছে, কিন্তু আমি তোমাদের বাজি ধরে বলতে পারি যে আপনি একটি 3d প্যারামিটার গ্রিড উপর একটি ক্রস বৈধতা অনুসন্ধান করা, তারপর আপনি পাবেন γ0 অনুকূল মান হিসাবে। যদি তা হয় তবে আপনি কি যুক্তি দিবেন যে L3 ব্যয়কেও অন্তর্ভুক্ত করা সবসময় ভাল ধারণা ।

আমি প্রশংসা করি যে প্রশ্নের উদ্দীপনাটি "আপনার দাবি অনুসারে যদি এটি হয় এবং দুটি জরিমানা ভাল হয় তবে কেন অন্যটিকে যুক্ত করবেন না?" তবে আমি মনে করি যে উত্তরটি প্রথমে কেন আমরা নিয়মিত করি in

L1 নিয়মিতকরণ বিরল সমাধান উত্পাদন করতে ঝোঁক, তবে ফলাফলের সাথে সবচেয়ে দৃ strongly়ভাবে সম্পর্কিত এবং বাকীটি শূন্যের সাথে বৈশিষ্ট্যটি নির্বাচন করতেও ঝোঁক। অধিকন্তু,n পর্যবেক্ষণসহ একটি ডেটা সেট করা, এটি সর্বাধিকn বৈশিষ্ট্যগুলিনির্বাচন করতে পারে। L2 নিয়মিতকরণ অত্যন্ত (বা পুরোপুরি) পারস্পরিক সম্পর্কযুক্ত বৈশিষ্ট্যগুলির ফলে অসুস্থ পোজযুক্ত সমস্যাগুলি মোকাবিলার জন্য উপযুক্ত। সঙ্গে একটি ডেটা সেটেরp বৈশিষ্ট্য,L2 নিয়মিতকরণ স্বতন্ত্র একটি মডেল সনাক্ত করতে ব্যবহার করা যেতে পারেp>n কেস।

এই সমস্যাগুলির যে কোনও একদিকে রেখে, নিয়ন্ত্রিত মডেলটি এখনও এমএল মডেলটিকে বহিরাগতভাবে সম্পাদন করতে পারে কারণ অনুমানকারীগুলির সঙ্কুচিত বৈশিষ্ট্যগুলি "হতাশাবাদী" এবং 0 এর দিকে সহগুণগুলি টানতে পারে।

L3

L1L2

ইন কেন আমরা শুধুমাত্র দেখতে পাচ্ছ এল 2 নিয়মিতকরণ কিন্তু অন্যান্য নিয়ম? L1L2, @ শুভ এই মন্তব্যটি সরবরাহ করে:

L2L1L1L2

LqL1L2


4
এই বলে যে "ইলাস্টিক নেট সবসময় লাসো ও রিজ রিগ্রেশন এর চেয়ে বেশি পছন্দ হয়" কিছুটা শক্ত হতে পারে। ছোট বা মাঝারি নমুনায় ইলাস্টিক নেট খাঁটি ল্যাসো বা খাঁটি রিজ সমাধান নির্বাচন করতে পারে না যদিও পূর্বের বা পরবর্তীকটি আসলে প্রাসঙ্গিক। দৃ strong় পূর্ব জ্ঞান দেওয়া ইলাস্টিক নেটের জায়গায় লাসো বা রিজ নির্বাচন করা বোধ করতে পারে। তবে পূর্বের জ্ঞানের অভাবে ইলাস্টিক নেটকে পছন্দসই সমাধান হওয়া উচিত।
রিচার্ড হার্ডি

4
α

7
γγ0

5
@ অ্যামিবার প্রশ্নটি খুব চতুর ছিল এবং আমি মনে করি এর উত্তর দেওয়ার জন্য আপনি মনে করছেন আপনার মানগুলি কিছুটা বদলেছে। আপনি সম্পূর্ণ নিশ্চিত না হলেL1L2L3

3
"আমরা লাসো, রিজ এবং ইলাস্টিক নেট সমাধানগুলি পরীক্ষা করতে পারি এবং একটি চূড়ান্ত মডেল বেছে নিতে পারি" - আমরা এটি করতে পারি, তবে অবশ্যই এটি একটি নতুন পদ্ধতি, এলোমেলো ত্রুটির সাপেক্ষে একটি মানদণ্ডকে অনুকূলকরণ করে, যা আরও ভাল সম্পাদন করতে পারে বা নাও করতে পারে লাসো, বা রিজ রিগ্রেশন বা একা স্থিতিস্থাপক নেট থেকে।
স্কোর্টচি - মনিকা পুনরায় ইনস্টল করুন

11

আমি সাধারণত @ সাইকোরাক্স উত্তরের সাথে একমত, তবে আমি কিছু যোগ্যতা যুক্ত করতে চাই।

এই বলে যে "ইলাস্টিক নেট সবসময় লাসো ও রিজ রিগ্রেশন এর চেয়ে বেশি পছন্দ হয়" কিছুটা শক্ত হতে পারে। ছোট বা মাঝারি নমুনায় ইলাস্টিক নেট খাঁটি ল্যাসো বা খাঁটি রিজ সমাধান নির্বাচন করতে পারে না যদিও পূর্ববর্তী বা পরবর্তীকটি আসলে প্রাসঙ্গিক। দৃ strong় পূর্ব জ্ঞান দেওয়া ইলাস্টিক নেটের জায়গায় লাসো বা রিজ নির্বাচন করা বোধগম্য হতে পারে। তবে পূর্বের জ্ঞানের অভাবে ইলাস্টিক নেটকে পছন্দসই সমাধান হওয়া উচিত।

এছাড়াও, এলএএসএসও বা রিজের তুলনায় ইলাস্টিক নেট কম্পিউটারের চেয়ে বেশি ব্যয়বহুল কারণ লাসো বনাম রিজের তুলনামূলক ওজনকে ক্রস বৈধতা ব্যবহার করে নির্বাচন করতে হবে। যদি আলফা মানগুলির একটি যুক্তিসঙ্গত গ্রিড 0.1 মাপের ধাপের আকারের সাথে [0,1] হয়, তবে এর অর্থ হবে ইলাস্টিক নেট লাসো বা রিজের তুলনায় কমপক্ষে 11 গুণ বেশি ব্যয়বহুল। (যেহেতু লাসো এবং রিজগুলির মধ্যে বেশিরভাগ একই গণনীয় জটিলতা নেই, ফলাফলটি কেবল মোটামুটি অনুমান is)


1
বা প্রকৃতপক্ষে লাসো বা রিজ রিগ্রেশন আনপেনালাইজড রিগ্রেশনের তুলনায় উন্নত ভবিষ্যদ্বাণীপূর্ণ কর্মক্ষমতা দিতে পারে না।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

4
কোন ধরণের পূর্বের জ্ঞান একজনকে লাসোকে পছন্দ করার দিকে পরিচালিত করবে এবং কোন ধরণের পূর্বের জ্ঞান একজনকে রিজকে পছন্দ করতে পরিচালিত করবে?
অ্যামিবা বলেছেন

4
@ অ্যামিবা, যদি এটি অনুধাবনযোগ্য হয় যে সমস্ত রেজিস্ট্রারগুলি প্রাসঙ্গিক, তবে তারা অত্যন্ত সংযোগযুক্ত হয়, তবে কোনও পরিবর্তনশীল নির্বাচনের প্রয়োজন হয় না এবং এইভাবে রিজকে পছন্দ করা যেতে পারে। অন্যদিকে, যদি কিছু রেজিস্ট্রার সম্পূর্ণ অপ্রাসঙ্গিক হওয়ার সম্ভাবনা থাকে (তবে আমরা কেবল কোনটি জানি না) তবে ভেরিয়েবল নির্বাচনের প্রয়োজন হয় এবং লাসোকে অগ্রাধিকার দেওয়া যেতে পারে। এই জ্ঞানটি বিষয়-সংক্রান্ত ডোমেন থেকে নেওয়া হবে। আমি মনে করি হাস্টি এট আল এর কয়েকটি উদাহরণ থাকতে পারে। "স্ট্যাটিস্টিকাল লার্নিং এর উপাদানগুলি" বা সম্পর্কিত সাহিত্যে, আমি কোথায় পড়েছি তা মনে পড়ে না।
রিচার্ড হার্ডি

1
@ কেজেটিভালভর্সেন, আপনাকে ধন্যবাদ, এটি সহায়ক ছিল।
রিচার্ড হার্ডি

1
অ্যামিবা, রিজ রিলেটেড ডেটাগুলির জন্য আরও ভাল, যেখানে এল 2 ইনপুটগুলির তুলনায় অনেক ছোট ওজনকে (গড়) উত্সাহ দেয় classicএর ক্লাসিক উদাহরণ স্বতন্ত্র শব্দের সাথে পুনরাবৃত্তি পরিমাপ করা হয় (যেমন সিগন্যাল প্রক্রিয়াকরণ, বা উদাহরণস্বরূপ একই বিষয়টির একাধিক পরীক্ষা), তবে এল 1 আরও ভাল যেখানে 1 টি অন্যটির উপর নির্ভর করে, ক্লাসিক কেসটি হায়ারারিকাল ডেটা হচ্ছে: যেখানে সহগের শ্রেণিবিন্যাসের উচ্চ স্তরে অনুমান করা উচিত।
seanv507
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.