রিগ্রেশন করার জন্য নিয়মিতকরণ পদ্ধতি কখন ব্যবহার করবেন?


83

কোন পরিস্থিতিতে ওএলএসের পরিবর্তে নিয়মিতকরণ পদ্ধতিগুলি (রিজ, লাসো বা কমপক্ষে অ্যাঙ্গেল রিগ্রেশন) ব্যবহার করা উচিত?

যদি এটি আলোচনার দিকে এগিয়ে যেতে সহায়তা করে তবে আমার মূল আগ্রহ ভবিষ্যদ্বাণীমূলক নির্ভুলতার উন্নতি করছে।

উত্তর:


75

সংক্ষিপ্ত উত্তর: যখনই আপনি এই পরিস্থিতির মধ্যে একটির মুখোমুখি হন:

  • বড় সংখ্যক ভেরিয়েবল বা কম অনুপাত। না পর্যবেক্ষণ ভেরিয়েবল ( কেস সহ ),np
  • উচ্চ সহরেখা,
  • একটি বিচ্ছিন্ন সমাধান (যেমন মডেল প্যারামিটারগুলি অনুমান করার সময় বৈশিষ্ট্য নির্বাচন এম্বেড করুন), বা seeking
  • উচ্চ মাত্রিক ডেটা সেটে ভেরিয়েবলের গোষ্ঠীকরণের জন্য অ্যাকাউন্টিং।

পক্ষপাতিত্ব এবং বৈকল্পিকতার মধ্যে আরও ভাল সমঝোতার মাধ্যমে রিজ রিগ্রেশন সাধারণত ওএলএস সমাধানের চেয়ে ভাল পূর্বাভাস দেয়। এর প্রধান অসুবিধাটি হ'ল সমস্ত ভবিষ্যদ্বাণীকারীদের মডেলটিতে রাখা হয়, তাই যদি আপনি কোনও পার্সিমোনিয়াস মডেল খোঁজেন বা কোনও ধরণের বৈশিষ্ট্য নির্বাচন প্রয়োগ করতে চান তবে এটি খুব আকর্ষণীয় নয়।

স্পারসিটি অর্জনের জন্য, লাসো আরও উপযুক্ত তবে এটি উচ্চ কোলাইনারিটির উপস্থিতিতে অগত্যা ভাল ফল দেবে না (এটি লক্ষ্য করা গেছে যে যদি ভবিষ্যদ্বাণীকারীরা খুব বেশি সম্পর্কযুক্ত হয় তবে লাসোর ভবিষ্যদ্বাণী কর্মক্ষমতা রিজ রিগ্রেশন দ্বারা প্রভাবিত হয়)। এল 1 পেনাল্টির সাথে দ্বিতীয় সমস্যাটি হ'ল লাসো সলিউশনটি অনন্যভাবে নির্ধারিত হয় না যখন ভেরিয়েবলের সংখ্যা সাবজেক্টের সংখ্যার চেয়ে বেশি হয় (এটি রিজ রিগ্রেশন-এর ক্ষেত্রে নয়)। লাসোর সর্বশেষ ত্রুটিটি হ'ল এটি উচ্চ জোড়াযুক্ত পারস্পরিক সম্পর্কের সাথে ভবিষ্যদ্বাণীকারীদের একটি গ্রুপের মধ্যে কেবল একটি পরিবর্তনশীল নির্বাচন করতে ঝোঁক। এই ক্ষেত্রে, গোষ্ঠীর মতো বিকল্প সমাধান রয়েছে (যেমন, কোভেরেটের ব্লকে সংকোচন অর্জন করা, এটি হ'ল রিগ্রেশন সহগের কয়েকটি ব্লক হ'ল শূন্য) বা ফিউজডLasso। গ্রাফিকাল, Lasso এছাড়াও GGMs জন্য প্রতিশ্রুতিশীল বৈশিষ্ট্য (রাঃ দেখতে উপলব্ধ করা হয় glasso প্যাকেজ)।

তবে, অবশ্যই, ইলাস্টিকনেট মানদণ্ড, যা এল 1 এবং এল 2 জরিমানার সংমিশ্রণ সংকোচন এবং স্বয়ংক্রিয় পরিবর্তনশীল নির্বাচন উভয়ই অর্জন করে এবং এটি ভেরিয়েবলগুলিকে যেখানে । Zou এবং Hastie (2005) অনুসরণ করে, এটি আর্গুমেন্ট হিসাবে সংজ্ঞায়িত করা হয়েছে যা হ্রাস করে (( ওভার )m>pnpβ

L(λ1,λ2,β)=YXβ2+λ2β2+λ1β1

যেখানে এবং।β2=j=1pβj2β1=j=1p|βj|

Lasso ফ্রিডম্যান এবং Coll সাম্প্রতিক কাগজ বর্ণনা অনুযায়ী বংশদ্ভুত তুল্য উপর ভিত্তি করে একটি আলগোরিদিম সঙ্গে নির্ণিত করা যেতে পারে।, স্থানাঙ্ক বংশদ্ভুত মাধ্যমে জেনারেলাইজড রৈখিক মডেল জন্য নিয়মিতকরণ পথ (জনসংহতি, 2010) অথবা Lars অ্যালগরিদম। আর সালে শাস্তি , Lars বা biglars এবং glmnet প্যাকেজ দরকারী প্যাকেজ আছে; পাইথনে, সাইকিট.লার্ন টুলকিট রয়েছে, তিন ধরণের নিয়মিতকরণ স্কিম প্রয়োগ করার জন্য ব্যবহৃত অ্যালগরিদমের উপর বিস্তৃত নথি

সাধারণ রেফারেন্স হিসাবে, লাসো পৃষ্ঠায় লসো রিগ্রেশন এবং এল 1-জরিমানা সম্পর্কিত প্রযুক্তিগত বিবরণ দিয়ে শুরু করার জন্য প্রয়োজনীয় বেশিরভাগ রয়েছে এবং এই সম্পর্কিত প্রশ্নটিতে প্রয়োজনীয় উল্লেখগুলি উল্লেখ করা হয়েছে, আমি কখন লাসো বনাম রিজ ব্যবহার করব?


1
তুলনামূলকভাবে কয়েকটি ভেরিয়েবলের সাথে আমার প্রচুর পর্যবেক্ষণ থাকলেও খুব কম সংকেত-থেকে-শব্দের অনুপাত কী হবে? এত কম, আসলে, ওভারফিট করা খুব বাস্তব সমস্যা। ভবিষ্যদ্বাণীক নির্ভুলতার উন্নতি করার জন্য নিয়মিতকরণ চেষ্টা করা এবং দেখার চেষ্টা করা কি একটি বুদ্ধিমান জিনিস হবে?
এনপিই

1
@ অ্যাক্স এটি নির্ভর করে যে আপনি আসলে কয়েকটি ভেরিয়েবল কল করেন এবং আপনি কী ধরণের ভেরিয়েবলের সাথে ডিল করছেন on তবে আমি মনে করি আপনার ক্ষেত্রে একটি রিজ পদ্ধতির পছন্দ করা উচিত। আপনি বুস্টিং রিজ রিগ্রেশনও দেখতে পারেন (টুটজ এবং বাইন্ডার, 2005)। পেনালাইজড এমএল প্রাক্কলনটি ওভারফিটিং থেকে রোধ করার জন্য বিল্ট-ইন পদ্ধতি হিসাবেও প্রস্তাব করা হয়েছিল; উদাহরণস্বরূপ দেখুন, বাইনারি ফলাফলগুলির পূর্বাভাস দেওয়ার জন্য পেনালাইজড সর্বাধিক সম্ভাবনার অনুমান: মুনস কেজি, ডন্ডার্স এআর, স্টিয়ারবার্গ ইডাব্লু, হ্যারেল এফই জে ক্লিন Epidemiol। 2004, 57 (12): 1262-70।
chl

20

রিজ রিগ্রেশন ব্যবহারের জন্য একটি তাত্ত্বিক সমর্থনযোগ্যতা হ'ল এর সমাধানটি কোটারিয়েন্টিয়াসগুলিতে একটি সাধারণ পূর্বে প্রদত্ত উত্তরোত্তর মাধ্যম। এটি হ'ল, যদি আপনি স্কোয়ার ত্রুটির বিষয়ে যত্নশীল হন এবং আপনি কোনও সাধারণ পূর্বে বিশ্বাস করেন তবে রিজ অনুমানগুলি সর্বোত্তম।

একইভাবে, লাসো প্রাক্কলনটি আপনার সহগের পূর্বে ডাবল-এক্সফেনশনিয়ালের অধীনে পোস্টেরিয়র মোড। এটি শূন্য-ওয়ান ক্ষতি কার্যের অধীনে অনুকূল।

অনুশীলনে, এই কৌশলগুলি সাধারণত এমন পরিস্থিতিতে পরিস্থিতিতে ভবিষ্যদ্বাণীমূলক নির্ভুলতার উন্নতি করে যেখানে আপনার অনেকগুলি সংযুক্ত ভেরিয়েবল রয়েছে এবং অনেকগুলি ডেটা নয়। যদিও ওএলএসের অনুমানকারীটি সর্বোত্তম লিনিয়ার পক্ষপাতহীন, তবে এই পরিস্থিতিতে এর উচ্চতর পার্থক্য রয়েছে। আপনি যদি পক্ষপাত-বৈকল্পিক বাণিজ্য বন্ধের দিকে লক্ষ্য করেন তবে পূর্বাভাসের সঠিকতাটি উন্নত হয় কারণ বৈষম্যের ক্ষুদ্র বৃদ্ধি বৈচিত্রের বৃহত হ্রাস দ্বারা অফসেটের চেয়ে বেশি।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.