লসো বনাম রিজ কখন ব্যবহার করা উচিত?


167

বলুন যে আমি প্রচুর পরিমাণে প্যারামিটার অনুমান করতে চাই এবং আমি তাদের কয়েকটিকে শাস্তি দিতে চাই কারণ আমার বিশ্বাস অন্যদের তুলনায় তাদের খুব কম প্রভাব ফেলতে হবে। কীভাবে পেনালাইজেশন স্কিম ব্যবহার করব তা আমি কীভাবে সিদ্ধান্ত নেব? রিজ রিগ্রেশন কখন বেশি উপযুক্ত? আমি কখন লসো ব্যবহার করব?


"বলুন আমি একটি বিশাল সংখ্যক পরামিতি অনুমান করতে চাই" এটি আরও সুনির্দিষ্ট করা যেতে পারে: কাঠামোটি কী? আমার ধারণা এটি লিনিয়ার রিগ্রেশন?
রবিন গিরার্ড

2
মেটাওপিটিমাইজে (ঠিক যে এল 1 = লাসো এবং এল 2
ভারোকাওক্স

আপনি "লাসো বনাম রিজ" বলছেন যেন তারা কেবলমাত্র দুটি বিকল্প - অন্যদের মধ্যে সাধারণ ডাবল পেরেটো, ঘোড়া, বিএমএ, ব্রিজের কী হবে?
সম্ভাব্যতাব্লোগিক

উত্তর:


106

মনে রাখবেন যে রিজ রিগ্রেশন সহগগুলি শুন্য করতে পারে না; সুতরাং, আপনি হয় মডেলের সমস্ত সহগ বা অন্য কোনওটি সহ শেষ করেন। বিপরীতে, লাসো স্বয়ংক্রিয়ভাবে প্যারামিটার সংকোচন এবং পরিবর্তনশীল নির্বাচন উভয়ই করে। যদি আপনার কিছু কোভেরিয়ট অত্যন্ত সংযুক্ত থাকে তবে আপনি লাসোর পরিবর্তে ইলাস্টিক নেট [3] দেখতে চাইতে পারেন।

আমি ব্যক্তিগতভাবে অ-নেতিবাচক গ্যারোট (এনএনজি) [1] ব্যবহার করার পরামর্শ দিচ্ছি কারণ এটি অনুমান এবং পরিবর্তনশীল নির্বাচনের ক্ষেত্রে সামঞ্জস্যপূর্ণ [2]। লাসো এবং রিজ রিগ্রেশন থেকে পৃথক, এনএনজির একটি প্রাথমিক অনুমান প্রয়োজন যা পরে উত্সের দিকে সঙ্কুচিত হয়। মূল কাগজে, ব্রেইমান প্রাথমিক অনুমানের জন্য সর্বনিম্ন-স্কোয়ার সমাধানের প্রস্তাব দেয় (আপনি তবে একটি রিজ রিগ্রেশন সলিউশন থেকে সন্ধান শুরু করতে পারেন এবং পেনাল্টি প্যারামিটারটি নির্বাচন করতে GCV এর মতো কিছু ব্যবহার করতে পারেন)।

উপলভ্য সফ্টওয়্যারগুলির ক্ষেত্রে, আমি ম্যাটল্যাবে আসল এনএনজি বাস্তবায়ন করেছি (ব্রেইমানের মূল ফোরট্রান কোডের ভিত্তিতে)। আপনি এটি থেকে ডাউনলোড করতে পারেন:

http://www.emakalic.org/blog/wp-content/uploads/2010/04/nngarotte.zip

বিটিডাব্লু, আপনি যদি কোনও বায়েশীয় দ্রবণ পছন্দ করেন তবে [৪,৫] পরীক্ষা করে দেখুন।

তথ্যসূত্র:

[১] ব্রেইম্যান, এল। বেটার সাবসেট রিগ্রেশন নননিজেটিভ গ্যারোট টেকনোমেট্রিক্স, 1995, 37, 373-384 ব্যবহার করে

[২] ইউয়ান, এম ও লিন, ওয়াই রয়্যাল স্ট্যাটিস্টিকাল সোসাইটির (সিরিজ বি), 2007, 69, 143-161 এর অ-নেতিবাচক গ্যারোটের অনুমানকারী জার্নালে

[3] জৌ, এইচ।

[৪] পার্ক, টি। ও কেসেলা, জি। বায়েসিয়ান লাসো জার্নাল অফ আমেরিকান স্ট্যাটিস্টিকাল অ্যাসোসিয়েশন, ২০০৮, ১০৩, 1 68১-6866

[5] কিউং, এম ;; গিল, জে .; ঘোষ, এম। ও কেসেলা, জি। পেনালাইজড রিগ্রেশন, স্ট্যান্ডার্ড ত্রুটি, এবং বায়সিয়ান লাসসো বেয়েসিয়ান অ্যানালাইসিস, 2010, 5, 369-412


2
আপনি কি রিজ বনাম লাসো সম্পর্কে আরও নির্দিষ্ট হতে পারেন? স্বয়ংক্রিয় পরিবর্তনশীল নির্বাচন লাসোকে পছন্দ করার একমাত্র কারণ?
চোগ

42

রিজ বা লাসো নিয়মিত রৈখিক সংযোজনগুলির ফর্ম। সুনির্দিষ্ট পোস্টেরিয়েরি অনুমান পদ্ধতিতে নিয়মিতকরণকে পূর্বের হিসাবেও ব্যাখ্যা করা যেতে পারে। এই ব্যাখ্যার অধীনে রিজ এবং লাসো লাইন রুপান্তরকরণের শ্রেণীর উপর বিভিন্ন ধারণা অনুমান করে যা তারা ইনপুট এবং আউটপুট ডেটার সাথে সম্পর্কিত বলে মনে করে। রিজে, লিনিয়ার রূপান্তরের সহগগুলি সাধারণ বিতরণ করা হয় এবং লাসোতে এগুলি ল্যাপ্লেস বিতরণ করা হয়। লাসোতে, এটি সহগের পক্ষে শূন্য হওয়া সহজ করে এবং আউটপুটটিতে অবদান রাখেনি বলে আপনার কিছু ইনপুট ভেরিয়েবল মুছে ফেলা সহজ করে তোলে।

কিছু ব্যবহারিক বিবেচনা আছে। রিজটি প্রয়োগ করা কিছুটা সহজ এবং দ্রুত গণনা করা যায়, যা আপনার কাছে থাকা ডেটার ধরণের উপর নির্ভর করে গুরুত্বপূর্ণ হতে পারে।

আপনি যদি উভয়ই প্রয়োগ করে থাকেন তবে রিজ এবং লাসোটি খুঁজে পেতে আপনার ডেটার উপগ্রহগুলি ব্যবহার করুন এবং বাম আউট ডেটার উপর তারা কতটা ভাল কাজ করে তা তুলনা করুন। ত্রুটিগুলি আপনাকে কোনটি ব্যবহার করতে হবে তার একটি ধারণা দেওয়া উচিত।


8
আমি এটি পাই না - আপনার সহগগুলি স্থলভাগ বা সাধারণ বিতরণ করা থাকলে আপনি কীভাবে জানবেন?
ihadanny

1
রিজ রিগ্রেশন গণনা করার জন্য দ্রুত কেন?
আর্চি

4
@ এইচবিআর: "নিয়মিতকরণের সর্বাধিক উত্তরোত্তর প্রাক্কলন পদ্ধতির আগেও ব্যাখ্যা করা যেতে পারে" ": আপনি কি এই অংশটি গাণিতিক চিহ্নগুলির সাথে আরও বিশদভাবে ব্যাখ্যা করতে পারেন, বা কমপক্ষে একটি রেফারেন্স দিতে পারেন? ধন্যবাদ!
ম্যাথমাথ

2
@ আইহাদান্নি আপনি সম্ভবত জানেন না, এবং এটিই মূল বিষয়। কোনটি পোস্টারিয়েরি রাখতে হবে তা আপনি কেবল সিদ্ধান্ত নিতে পারেন ।
ফায়ারব্যাগ

30

সাধারণত আপনার যখন ছোট / মাঝারি আকারের অনেকগুলি প্রভাব থাকে তখন আপনাকে রিজ দিয়ে চলে আসা উচিত। আপনার যদি মাঝারি / বড় প্রভাব সহ কয়েকটি ভেরিয়েবল থাকে তবে লাসো দিয়ে যান। হস্তি, তিবশিরানী, ফ্রেডম্যান


4
তবে যখন আপনার কয়েকটি ভেরিয়েবল রয়েছে, আপনি সেগুলি মাঝারি / বড় প্রভাবগুলিতে আপনার সমস্ত মডেলগুলিতে রাখতে চাইবেন, যা লাসোতে হবে না কারণ এটির মধ্যে একটি মুছে ফেলতে পারে। আপনি কি দয়া করে এটি বিস্তারিতভাবে ব্যাখ্যা করতে পারেন? আমি অনুভব করি যখন আপনার অনেকগুলি ভেরিয়েবল থাকে তখন আমরা লাসো ব্যবহার করি অপ্রয়োজনীয় ভেরিয়েবলগুলি অপসারণ করতে এবং রিজকে অপসারণ করতে।
আদিত্য ভান্ডারী
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.