কেন রিজ রিগ্রেশন লাসোর চেয়ে আরও ভাল ব্যাখ্যা প্রদান করতে পারে না?


12

রিজ রিগ্রেশন এবং লাসো সম্পর্কে আমার ইতিমধ্যে একটি ধারণা রয়েছে।

লাসোর জন্য, এল 1 পেনাল্টি শব্দটি একটি বিচ্ছিন্ন সহগ ভেক্টর এনে দেবে, যা বৈশিষ্ট্য নির্বাচন পদ্ধতি হিসাবে দেখা যেতে পারে। তবে লাসোর জন্য কিছু সীমাবদ্ধতা রয়েছে। যদি বৈশিষ্ট্যগুলির উচ্চ সম্পর্ক থাকে তবে লাসো কেবল তাদের মধ্যে একটি নির্বাচন করবে। তদ্ব্যতীত, > , সমস্যার জন্য লাসো বেশিরভাগ প্যারামিটার নির্বাচন করবে ( এবং যথাক্রমে পর্যবেক্ষণ এবং পরামিতির সংখ্যা)। এগুলি রিজ রিগ্রেশন এর তুলনায় অনুমানযোগ্যতার ক্ষেত্রে লাসোকে অভিজ্ঞতাকে একটি সাবপটিমাল পদ্ধতিতে পরিণত করে।পিএনএনএনপি

রিজ রিগ্রেশন এর জন্য, এটি সাধারণভাবে আরও ভাল অনুমানযোগ্যতা সরবরাহ করে। তবে এর ব্যাখ্যাযোগ্যতা লাসোর মতো সুন্দর নয় nice

উপরের ব্যাখ্যাটি প্রায়শই মেশিন লার্নিং / ডেটা মাইনিংয়ের পাঠ্যপুস্তকে পাওয়া যায়। তবে, আমি এখনও দুটি বিষয় সম্পর্কে বিভ্রান্ত রয়েছি:

  1. আমরা যদি বৈশিষ্ট্যটির পরিসরটি স্বাভাবিক করে তুলি (০ থেকে ১ এর মধ্যে বলি বা শূন্য গড় এবং একক বৈচিত্র সহ) এবং রিজ রিগ্রেশন চালাই তবে আমাদের সহগের পরম মানগুলি বাছাই করে বৈশিষ্ট্যের গুরুত্ব সম্পর্কে ধারণা থাকতে পারে (সর্বাধিক গুরুত্বপূর্ণ বৈশিষ্ট্যটিতে রয়েছে সহগের সর্বোচ্চ পরম মান)। যদিও আমরা স্পষ্টভাবে বৈশিষ্ট্যগুলি নির্বাচন করছি না, রিজ রিগ্রেশন ব্যবহার করে ব্যাখ্যাযোগ্যতা হারাবে না। একই সময়ে, আমরা এখনও উচ্চ পূর্বাভাস শক্তি অর্জন করতে পারি। তাহলে কেন আমাদের লাসো দরকার? আমি কি এখানে কিছু মিস করছি?

  2. বৈশিষ্ট্য নির্বাচন প্রকৃতির কারণে লাসো কী পছন্দ হয়? আমার বোধগম্যতার জন্য, আমাদের বৈশিষ্ট্য নির্বাচনের প্রয়োজনের কারণগুলি হ'ল সাধারণকরণ এবং গণনা সহজ করার ক্ষমতা।

    গণনার স্বাচ্ছন্দ্যের জন্য, আমরা কিছু মডেলগুলিতে সমস্ত 1 মিলিয়ন বৈশিষ্ট্যগুলিকে ফিড করতে চাই না যদি আমরা কিছু এনএলপি কাজ সম্পাদন করি, সুতরাং আমরা গণ্যমূল্য ব্যয় হ্রাস করতে প্রথমে কিছু স্পষ্টত অকেজো বৈশিষ্ট্যগুলি বাদ দিই। তবে, লাসোর জন্য আমরা কেবলমাত্র আমাদের মডেলটিতে সমস্ত ডেটা ফিড করার পরে বৈশিষ্ট্য নির্বাচনের ফলাফল (স্পার্স ভেক্টর) জানতে পারি, সুতরাং আমরা কম্পিউটেশনাল ব্যয় হ্রাস করার ক্ষেত্রে লাসো থেকে কোনও উপকার পাব না। ভবিষ্যদ্বাণী করা ফলাফল উত্পন্ন করতে আমরা কেবলমাত্র আমাদের মডেলটিতে বৈশিষ্ট্যগুলির উপসেটটি (1 মিলিয়ন এর মধ্যে 500 বলুন) ফিড হিসাবে কেবলমাত্র একটু দ্রুত ভবিষ্যদ্বাণী করতে পারি।

    যদি লাসো সাধারণীকরণের দক্ষতার জন্য পছন্দসই হয় তবে আমরা রিজ রিগ্রেশন (বা অন্য কোনও ধরণের নিয়ামককরণ) ব্যবহার করে একই লক্ষ্য অর্জন করতে পারি। কেন আমাদের আবার ল্যাসো (বা ইলাস্টিক নেট) দরকার? কেন আমরা কেবল রিজ রিগ্রেশনকে আটকে রাখতে পারি না?

কেউ দয়া করে কিছু আলোকপাত করতে পারেন? ধন্যবাদ!


3
এগুলি রিজ রিগ্রেশন এর তুলনায় অনুমানযোগ্যতার ক্ষেত্রে লাসোকে অভিজ্ঞতাকে একটি সাবপটিমাল পদ্ধতিতে পরিণত করে। আমি একমত নই অনুমানের ক্ষেত্রে লাসো সাধারণত রিজের চেয়ে খারাপ (বা আরও ভাল) বলে আমি মনে করি না। @ জোনা যেমন তার উত্তরটিতে বলেছে, আপনি এমন পরিস্থিতিতে পড়তে পারেন যেখানে কিছু বৈশিষ্ট্য সত্যই মডেলের অন্তর্ভুক্ত নয় এবং তারপরে লাসো তাদের লাথি মারতে আরও কার্যকর হবে। তবে রিজের সাহায্যে সমস্ত বৈশিষ্ট্য অন্তর্ভুক্ত হবে এবং অপ্রাসঙ্গিক বিষয়গুলি পূর্বাভাসকে দূষিত করবে। এজন্য আমাদের স্থিতিস্থাপক নেট প্রয়োজন - এবং L 2 এর উপযুক্ত সংমিশ্রণটি ডেটা স্থির করতে দেয় । এল1এল2
রিচার্ড হার্ডি

3
আমি আরও আশ্চর্য হই যে কোন পাঠ্যপুস্তকগুলি ফিজ রিগ্রেশন জাতীয় মত বলে , এটি সাধারণভাবে আরও ভাল পূর্বাভাস দেয় (লাসোর বিপরীতে, আমি বুঝতে পারি, সীমাহীন প্রতিরোধের বিপরীতে নয়)। সম্ভবত জেনারেল তাদের ব্যবহারে সাধারণ নয়। এছাড়াও, নিয়ামকরণের পদ্ধতিগুলি উত্পাদন করার কথা কতটা ব্যাখ্যাযোগ্যতা? (এছাড়াও, শমুয়েলই "টু ব্যাখ্যা করতে বা ভবিষ্যদ্বাণী করা" (2010) একটি দুর্দান্ত টুকরো, যদিও সরাসরি সম্পর্কিত নয়))
রিচার্ড হার্ডি

1
@ রিচার্ড হার্দি, আপনি ঠিক বলেছেন এখন আমি পাঠ্যপুস্তকটি আরও মনোযোগ সহকারে পড়েছি এবং দেখতে পেয়েছি যে " রিজ রিগ্রেশন বা লাসো উভয়ই সর্বজনীনভাবে অন্যদের উপর আধিপত্য বিস্তার করতে পারবে না ", পৃষ্ঠাটিতে অ্যাপ্লিকেশন সহ স্ট্যাটিস্টিকাল লার্নিংয়ের সাথে পরিচিত , গ্যারেথ জেমস এট আল
ব্র্যাড লি

@ রিচার্ড হার্দি, মূলত আমি এল 1 লাইব্রেরিআরএফএআরএ-র নিয়মিতকরণের জন্য একই রকম যুক্তি খুঁজে পেয়েছি: csie.ntu.edu.tw/~cjlin/liblinear/…
ব্র্যাড লি

রিজ এবং লাসোর একটি বাস্তব উদাহরণ বা দু'জনের রান কি পার্থক্য স্পষ্ট করবে? (কিন্তু তারা সহজ তুলনা নয় - চক্রান্ত হইয়া বনাম sparsity?)
ডেনিস

উত্তর:


16
  1. আপনি যদি 1 মিলিয়ন রিজ-সঙ্কুচিত, আকারযুক্ত, তবে শূন্য-নাগাদ বৈশিষ্ট্যগুলি অর্ডার করেন তবে আপনাকে এক ধরণের সিদ্ধান্ত নিতে হবে: আপনি এন সেরা ভবিষ্যদ্বাণীদের দিকে তাকান, তবে এন কী? লাসো এই সমস্যাটি মূলত, উদ্দেশ্যমূলক উপায়ে সমাধান করে কারণ পথের প্রতিটি পদক্ষেপের জন্য (এবং প্রায়শই আপনি উদাহরণস্বরূপ ক্রস বৈধকরণের মাধ্যমে একটি পয়েন্টে স্থির হয়ে থাকতেন), কেবলমাত্র এম- কো-ফলক রয়েছে যা শূন্য নয়।

  2. খুব প্রায়ই, আপনি কিছু ডেটাতে মডেলগুলি প্রশিক্ষণ দেবেন এবং তারপরে এটি এখনও সংগ্রহ না করা কিছু ডেটাতে প্রয়োগ করবেন। উদাহরণস্বরূপ, আপনি 50.000.000 ইমেলের উপর আপনার মডেলটি ফিট করতে পারেন এবং তারপরে প্রতিটি নতুন ইমেলটিতে সেই মডেলটি ব্যবহার করতে পারেন। সত্য, আপনি এটি প্রথম 50.000.000 মেলের জন্য পুরো বৈশিষ্ট্য সেটটিতে ফিট করতে পারবেন তবে নিম্নলিখিত প্রতিটি ইমেলের জন্য আপনি অনেক স্পারসার এবং দ্রুত এবং আরও অনেক বেশি মেমরি দক্ষ, মডেল নিয়ে কাজ করবেন। আপনার এমনকি বাদ দেওয়া বৈশিষ্ট্যগুলির জন্য তথ্য সংগ্রহ করার প্রয়োজনও হবে না, যা বৈশিষ্ট্যগুলি নিষ্কাশনের জন্য ব্যয়বহুল হলে যেমন জিনোটাইপিংয়ের মাধ্যমে প্রচুর পরিমাণে সহায়ক।

উদাহরণস্বরূপ অ্যান্ড্রু গেলম্যান দ্বারা প্রকাশিত এল 1 / এল 2 সমস্যার উপর অন্য দৃষ্টিভঙ্গিটি হ'ল আপনার সমস্যাটি কেমন হতে পারে আপনার প্রায়শই কিছুটা অন্তর্দৃষ্টি থাকে। কিছু পরিস্থিতিতে, এটি সম্ভব যে বাস্তবতা সত্যই বিরল। হতে পারে আপনি লক্ষ লক্ষ জিন পরিমাপ করেছেন, তবে এটি প্রশংসনীয় যে এর মধ্যে কেবল 30.000 ডপামাইন বিপাক নির্ধারণ করে। এই পরিস্থিতিতে, L1 তর্কযুক্ত সমস্যাটি আরও ভাল ফিট করে।
অন্যান্য ক্ষেত্রে, বাস্তবতা ঘন হতে পারে। উদাহরণস্বরূপ, মনোবিজ্ঞানে, "সবকিছুই কিছু কিছু (কিছুটা ডিগ্রী) সাথে কিছু সংযুক্ত করে" (পল মেহল)। বনাম কমলালেবু আপেল পছন্দগুলি সম্ভবত আছে একরকম রাজনৈতিক সঙ্গে সম্পর্কিত - এবং এমনকি আই কিউ সঙ্গে। এখানে নিয়মিতকরণ এখনও বোধগম্য হতে পারে তবে সত্য শূন্যের প্রভাব বিরল হওয়া উচিত, সুতরাং এল 2 আরও উপযুক্ত হতে পারে।


Y=-2এক্স1+ +3এক্স2-এক্স3
এক্স2>এক্স1>এক্স3[0,1]
ব্র্যাড লি

অবশ্যই আপনি এগুলি বাছাই করতে পারেন, তবে তাদের কোন সাবসেটটি আপনি দেখছেন সে সম্পর্কে আপনাকে এখনও কিছুটা সিদ্ধান্ত নিতে হবে।
জোনা

6
আরেকটি উপায় উক্তিতে এই হবে: শৈলশিরা পারে সাহায্য বৈশিষ্ট্য নির্বাচন সঙ্গে, Lasso করে বৈশিষ্ট্য নির্বাচন।
জোনা

1
@ ব্র্যাড, জোনা (+1) দ্বারা দুর্দান্ত উত্তরের পাশাপাশি নোট করুন যে বৈশিষ্ট্যটির মানটিকে এর মানকযুক্ত প্রতিরোধের সহগ দ্বারা বিচার করা একটি সম্ভাব্য পন্থা, তবে একমাত্র নয়; "বৈশিষ্ট্য গুরুত্ব" এর বিভিন্ন ব্যবস্থা রয়েছে এবং তারা সহজেই বিপরীত ফলাফল দিতে পারে। দীর্ঘ আলোচনার জন্য এই থ্রেডটি দেখুন: stats.stackexchange.com/questions/64010
অ্যামিবা

1

লক্ষ্য অনেকগুলি বৈশিষ্ট্যের উপর নির্ভরশীল হলে ব্যাখ্যা ব্যাখ্যা হ্রাস পায়। এটি বৃদ্ধি করে যদি আমরা বৈশিষ্ট্যের সংখ্যা হ্রাস করতে পারি এবং যথার্থতা বজায় রাখতে পারি। রিজ নিয়মিতকরণের বৈশিষ্ট্যগুলির সংখ্যা হ্রাস করার ক্ষমতা নেই। তবে লাসোর সক্ষমতা রয়েছে। কীভাবে এটি ঘটে যায় তা নীচের লিঙ্কে দর্শনীয়ভাবে ব্যাখ্যা করা হয়েছে:

তথ্য বিজ্ঞানের দিকে নিবন্ধটি ক্লিক করুন

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.