এল 1 এর নিয়মিতকরণ কখন এল 2 এর থেকে আরও বিপরীতে কাজ করবে?


30

দ্রষ্টব্য: আমি জানি যে এল 1 এর বৈশিষ্ট্য নির্বাচনের সম্পত্তি রয়েছে। বৈশিষ্ট্য নির্বাচন সম্পূর্ণ অপ্রাসঙ্গিক হলে আমি কোনটি বেছে নেব তা বোঝার চেষ্টা করছি।

  1. কোন নিয়মিতকরণ (এল 1 বা এল 2) ব্যবহার করবেন তা কীভাবে সিদ্ধান্ত নেবেন?
  2. এল 1 / এল 2 নিয়মিতকরণের প্রতিটিের পক্ষে কী কী?
  3. L1 ব্যবহার করে 1 তম বৈশিষ্ট্য নির্বাচন করার পরামর্শ দেওয়া হয় এবং তারপর এই নির্বাচিত ভেরিয়েবলগুলিতে L2 প্রয়োগ করুন?

2
নোট করুন যে "এল 1 বৈশিষ্ট্য নির্বাচন" এর পরিবর্তে বৈশিষ্ট্য স্থান নিয়মিতকরণ বলা উচিত; মডেলিং সমস্যার সাথে প্রাসঙ্গিক কী তা তথ্য প্রাপ্তি হিসাবে বৈশিষ্ট্য নির্বাচন করার আরও অনেক উপায় রয়েছে understood

@ এমবিকিউ: আমি আগ্রহী যে এখানে "বহু উপায় উন্নত পদ্ধতি" বলতে চাচ্ছেন?
অ্যামিবা বলেছেন মোনিকা

1
এখানে গণনা করা তাদের মত ।

উত্তর:


31

কোন নিয়মিতকরণ (এল 1 বা এল 2) ব্যবহার করবেন তা কীভাবে সিদ্ধান্ত নেবেন?

তোমার লক্ষ্য কি? উভয়ই সহগকে শাস্তি দিয়ে মডেল জেনারেলাইজেশন উন্নত করতে পারে, যেহেতু ফলাফলের সাথে বিপরীত সম্পর্কের বৈশিষ্ট্যগুলি একে অপরকে "অফসেট" করতে পারে (একটি বৃহত্তর ধনাত্মক মান একটি বৃহত্তর নেতিবাচক মানের দ্বারা সামঞ্জস্যযুক্ত)। কলিনারি বৈশিষ্ট্যগুলি থাকলে এটি দেখা দিতে পারে। ডেটাতে ছোট পরিবর্তনগুলির ফলে নাটকীয়ভাবে বিভিন্ন পরামিতি অনুমান (উচ্চতর ভেরিয়েন্স অনুমান) হতে পারে। পেনালাইজেশন উভয় সহগকে ছোট হতে বাধা দিতে পারে। (হাস্টি এট আল, পরিসংখ্যান শিক্ষার উপাদানসমূহ , ২ য় সংস্করণ, পৃষ্ঠা 63৩)

এল 1 / এল 2 নিয়মিতকরণের প্রতিটিের পক্ষে কী কী?

Nএন -শূন্য । প্রসঙ্গের উপর নির্ভর করে, এটি আপনি যা চান তা নাও হতে পারে।

এল 1 নিয়মিতকরণ কখনও কখনও বৈশিষ্ট্য নির্বাচন পদ্ধতি হিসাবে ব্যবহৃত হয়। মনে করুন আপনি যে বৈশিষ্ট্যগুলি ব্যবহার করতে পারেন তার সংখ্যার উপর আপনার একধরনের হার্ড ক্যাপ রয়েছে (কারণ ডেটা সংগ্রহের জন্য সমস্ত বৈশিষ্ট্যের ব্যয়বহুল, বা আপনি কতগুলি মান সংরক্ষণ করতে পারেন ইত্যাদি বিষয়ে আপনার ইঞ্জিনিয়ারিংয়ের সীমাবদ্ধতা রয়েছে)। আপনার পছন্দসই সংখ্যাটি শূন্য নয় এমন বৈশিষ্ট্যগুলিকে আঘাত করতে আপনি এল 1 জরিমানার টিউন করার চেষ্টা করতে পারেন।

L2 নিয়মিতকরণটি গুণমানের আদর্শকে সীমাবদ্ধ করে এবং সমস্ত ভেরিয়েবলগুলি রেখে বহুবিধ লাইন সমস্যাটি সমাধান করতে পারে। কোনও গুণগত মানের হুবহু 0 হওয়ার জন্য এটি অনুমান করার সম্ভাবনা কম This এটি অপ্রয়োজনীয় কোনও অসুবিধা নয়, যদি না কোনও কারণে খুব কম সংখ্যক ভেক্টর গুরুত্বপূর্ণ হয়।

রিগ্রেশন সেটিং-এ, পর্যবেক্ষণের চেয়ে বেশি বৈশিষ্ট্যযুক্ত কোনও রিগ্রেশনকে অনুমান করার সমস্যার এটি "ক্লাসিক" সমাধান। এল 2 নিয়মিতকরণ পর্যবেক্ষণের চেয়ে আরও বেশি বৈশিষ্ট্য উপস্থিত থাকলেও প্রতিটি বৈশিষ্ট্যের জন্য একটি গুণফলের অনুমান করতে পারে (সত্যই এটি "রিজ রিগ্রেশন" এর মূল প্রেরণা ছিল)।

বিকল্প হিসাবে, ইলাস্টিক নেট বিশেষ কেস হিসাবে এল 1 এবং এল 2 নিয়ন্ত্রণের অনুমতি দেয়। শিল্পের কোনও ডেটা বিজ্ঞানীর ক্ষেত্রে একটি সাধারণ ব্যবহারের ক্ষেত্রটি হ'ল আপনি কেবল সেরা মডেলটি বেছে নিতে চান তবে এটি L1, L2 বা উভয় ব্যবহার করে দণ্ডিত হয়েছে কিনা তা অগত্যা যত্ন করবেন না। ইলাস্টিক নেট এ জাতীয় পরিস্থিতিতে দুর্দান্ত।

L1 ব্যবহার করে 1 তম বৈশিষ্ট্য নির্বাচন করার পরামর্শ দেওয়া হয় এবং তারপর এই নির্বাচিত ভেরিয়েবলগুলিতে L2 প্রয়োগ করুন?

আমি L1-then-L2 পাইপলাইনের প্রস্তাবিত একটি প্রকাশনার সাথে পরিচিত নই, তবে এটি সম্ভবত আমার পক্ষে অজ্ঞতা। এতে কোনও ভুল আছে বলে মনে হয় না। আমি একটি সাহিত্য পর্যালোচনা পরিচালনা করব।

অনুরূপ "পর্যায়ক্রমে" পাইপলাইনগুলির কয়েকটি উদাহরণ বিদ্যমান। একটি হ'ল "রিলাক্সড লাসো", যা দুটি বার লাসো রিগ্রেশন প্রয়োগ করে , একবার একটি বড় গ্রুপ থেকে একটি ছোট গ্রুপের বৈশিষ্ট্যগুলিতে ডাউন-সিলেক্ট করতে এবং দ্বিতীয়টি কোনও মডেলটিতে ব্যবহারের জন্য সহগের অনুমানের জন্য। এটি পেনাল্টির পরিমাণ বাড়ানোর জন্য প্রতিটি পদক্ষেপে ক্রস-বৈধতা ব্যবহার করে। যুক্তিটি হ'ল প্রথম ধাপে, আপনি ক্রস-বৈধতা দিন এবং সম্ভবত অপ্রাসঙ্গিক ভবিষ্যদ্বাণীদের স্ক্রিন করার জন্য একটি বৃহত জরিমানা বেছে নেবেন; দ্বিতীয় ধাপে, আপনি ক্রস-বৈধতা দিন এবং সম্ভবত একটি ছোট জরিমানা বেছে নেবে (এবং এর ফলে আরও বড় সহগ)। নিকোলাই মেইনশাউসনের ("রিল্যাক্সড লাসো।" গণনা সংক্রান্ত পরিসংখ্যান এবং ডেটা বিশ্লেষণের সাথে উদ্ধৃতি দিয়ে পরিসংখ্যান শিক্ষার উপাদানসমূহে এটি সংক্ষেপে উল্লেখ করা হয়েছে) খণ্ড 52, সংখ্যা 1, 15 সেপ্টেম্বর 2007, পিপি 374-393)।

ব্যবহারকারী @ অ্যামিবাও একটি এল 1-এর পরে-ওএলএস পাইপলাইনের পরামর্শ দেয়; এটি চমৎকার হতে পারে কারণ এটিতে L1 পেনাল্টির মাত্রার জন্য কেবলমাত্র 1 হাইপারপ্যারামিটার রয়েছে, তাই কম ফিডিংয়ের প্রয়োজন হবে।

একটি সমস্যা যা যে কোনও "পর্যায়ক্রমে" বিশ্লেষণ পাইপলাইনের সাথে উত্থাপিত হতে পারে যা কিছু পদক্ষেপ এবং তারপরে পৃথকভাবে কিছু অন্যান্য পদক্ষেপগুলি হ'ল সেই বিভিন্ন অ্যালগরিদমের মধ্যে কোনও "দৃশ্যমানতা" নেই, সুতরাং একটি প্রক্রিয়া পূর্ববর্তী পদক্ষেপগুলিতে ঘটে যাওয়া কোনও ডাটা স্নুপিং উত্তরাধিকার সূত্রে প্রাপ্ত হয়। এই প্রভাব তুচ্ছ নয়; দুর্বল-কল্পনা করা মডেলিংয়ের ফলে আবর্জনা মডেল হতে পারে।

ডেটা স্নুপিং পার্শ্ব প্রতিক্রিয়াগুলির বিরুদ্ধে হেজ করার একটি উপায় হ'ল আপনার সমস্ত পছন্দ পছন্দ করে cross যাইহোক, বর্ধিত গণনা ব্যয় প্রতিরোধমূলক প্রমাণ করতে পারে।


দুঃখিত আমি আমার ২ য় পয়েন্টের উত্তরটি অনুসরণ করি নি। তুমি কি ব্যাখ্যা করতে পারো?
জর্জেফএফআরএফ

1
আশাবাদীদের জন্য সঠিকভাবে অ্যাকাউন্টিং সম্পর্কে এটি সবই। আমরা যে কারণে নমুনা ছাড়াই ডেটাতে পারফরম্যান্সটি পরিমাপ করি, একই কারণে সমস্ত ফিল্টারিং / প্রিপ্রসেসিং পদক্ষেপগুলি এমনভাবে করা দরকার যাতে পদক্ষেপগুলির মধ্যে তথ্য ফাঁসের অনুমতি দেয় না। আপনি যদি আপনার পুরো ডেটা সেটটিতে বৈশিষ্ট্য নির্বাচন করেন এবং তারপরে কিছু বিশ্লেষণ চালান, আপনি গোলমালে সংকেত পাবেন।
সাইকোরাক্স মনিকাকে

ঠিক আছে. তাহলে কোনও এমএল মডেল চালানোর আগে বৈশিষ্ট্য নির্বাচনের প্রস্তাবিত পদ্ধতির কী?
জর্জফফ আরআরএফ

3
আমার সুপারিশটি "না"। এটি কীভাবে বিব্রত হতে পারে তার উদাহরণের জন্য এখানে দেখুন: stats.stackexchange.com/questions/164048/… তবে এটি আপনার প্রাথমিক প্রশ্ন থেকে যথেষ্ট পৃথক যে আপনার কেবল নতুন প্রশ্ন জিজ্ঞাসা করা উচিত। (এটি আপনার সুবিধার জন্য, যেহেতু আপনি নতুন প্রশ্নে অতিরিক্ত প্রতিনিধি অর্জন করতে সক্ষম হবেন।)
সাইকোরাক্স মনিকাকে

3
(+1) আমি সাহিত্যে এল 1-এর-অনুসারে-এল -2 আলোচিত দেখিনি, তবে এটি আমার কাছে বোধগম্য। এলএ-অনুসরণ-পরে-ওএলএস (ওরফে "এলএআরএস-ওএলএস হাইব্রিড") এবং এল 1-ফলো-ই-এল -1 (রিল্যাক্সড ল্যাসো) রয়েছে, সুতরাং কেউ এল-অনুসরণ-দ্বারা-এল -2 বিবেচনা করতে পারে। যতক্ষণ না উভয় হাইপারপ্যারামিটারগুলি ক্রস-যাচাই করা হয় ততক্ষণ এটি কার্যকরভাবে নিয়ন্ত্রণ করার কৌশল হওয়া উচিত।
অ্যামিবা

19

সাধারণভাবে বলতে চাইলে সর্বোত্তম ভবিষ্যদ্বাণী L2 ব্যবহার করুন। আপনি যদি ভবিষ্যতবাচক বৈষম্যের কিছু ত্যাগের ক্ষেত্রে পার্সিমনি চান তবে এল 1 ব্যবহার করুন। তবে মনে রাখবেন যে পার্সিমনিটি মায়াময় হতে পারে, যেমন, বুটস্ট্র্যাপ ব্যবহার করে লাসো প্রক্রিয়াটি পুনরাবৃত্তি করা "বৈশিষ্ট্যযুক্ত" বৈশিষ্ট্যগুলির তালিকায় প্রায়শই উল্লেখযোগ্য অস্থিরতা প্রকাশ করে বিশেষত যখন ভবিষ্যদ্বাণীকারী একে অপরের সাথে সম্পর্কিত হয়।


"সর্বোত্তম ভবিষ্যদ্বাণী" - আপনার অর্থ L2 সাধারণত অদেখা তথ্যের উপর আরও সঠিকতা দেয়?
জর্জফফ আরআরএফ

3
হ্যাঁ, বিশেষত ভবিষ্যদ্বাণীমূলক বৈষম্য সম্পর্কে।
ফ্র্যাঙ্ক হ্যারেল

1
L2L1

2
এল2এল1

শান্ত, স্পষ্টতার জন্য আপনাকে ধন্যবাদ। এটা ভাল জ্ঞান করে তোলে। (হ্যাঁ, আপনি ঠিকই বলেছেন; আমি ঝুঁকির ক্ষেত্রে যথাযথ শ্রেণিবদ্ধকরণ এবং / অথবা বিষয়গুলি অর্ডার করার সম্ভাবনা সম্পর্কিত পদক্ষেপের সাথে পিডিকে সংযুক্ত করি তাই আমি "শ্রেণিবদ্ধকরণের কাজগুলি" বলতে খুব তাড়াতাড়ি ছিলাম; আমার খারাপ, আমার আরও যত্নবান হওয়া উচিত।)
ইউএসআর 11852 বলেছেন মনিক
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.