রিগ্রেশনের জন্য চলক নির্বাচনের জন্য লাসো ব্যবহারের অসুবিধাগুলি কী কী?


60

আমি যা জানি, তার থেকে ভেরিয়েবল নির্বাচনের জন্য লাসো ব্যবহার করা সহ সম্পর্কিত ইনপুটগুলির সমস্যা পরিচালনা করে। এছাড়াও, যেহেতু এটি সর্বনিম্ন অ্যাঙ্গেল রিগ্রেশন সমতুল্য, এটি গণনাগতভাবে ধীর হয় না। তবে, অনেক লোক (উদাহরণস্বরূপ লোকেরা বায়ো-স্ট্যাটিস্টিকস করা আমি জানি) এখনও ধাপে ধাপে বা স্টেজওয়াইজ ভেরিয়েবল নির্বাচনের পক্ষপাতী বলে মনে হচ্ছে। লসো ব্যবহারের কোনও ব্যবহারিক অসুবিধা যা এটিকে প্রতিকূল করে তোলে?


9
আমি জানি না আপনি কোথায় শুনেছেন যে লাসো কলিনারিটির সমস্যাটি পরিচালনা করে, এটি একেবারেই সত্য নয়।
ম্যাক্রো

3
মডেল নির্বাচনের জন্য হর্সশি পূর্বে লাসসোর চেয়ে ভাল - কমপক্ষে বিরল মডেলের ক্ষেত্রে (যেখানে মডেল নির্বাচন সবচেয়ে কার্যকর। আপনি এই লিঙ্কে এই পয়েন্টগুলির একটি আলোচনা খুঁজে পেতে পারেন । এই গবেষণাপত্রের দুজন লেখক ভ্যালেন্সিয়া বৈঠকেও অনুরূপ নিবন্ধটি পেয়েছিলেন, বায়েসিয়ান পরিসংখ্যান 9 "স্থানীয়ভাবে স্থানীয়ভাবে অ্যাক্ট সঙ্কুচিত করুন: স্পার্স বায়েশিয়ান নিয়মিতকরণ এবং ভবিষ্যদ্বাণী"। ভ্যালেন্সিয়া নিবন্ধটি পেনাল্টির কাঠামোয় আরও অনেক বিস্তারিতভাবে চলে।
সম্ভাব্যতাব্লোগিক

9
যদি আপনি কেবল ভবিষ্যদ্বাণীতে আগ্রহী হন, তবে মডেল নির্বাচন সাহায্য করে না এবং সাধারণত ব্যথা করে (কোনও পরিবর্তনশীল নির্বাচন না করে একটি চতুর্ভুজ শাস্তি = এল 2 আদর্শ = রিজ রিগ্রেশনের বিপরীতে)। ভেরিয়েবল নির্বাচন করার চেষ্টা করার জন্য লাসো ভবিষ্যদ্বাণীমূলক বৈষম্যের একটি মূল্য প্রদান করে pay
ফ্রাঙ্ক হ্যারেল

3
একটি স্বেচ্ছাসেবী সিদ্ধান্ত নেওয়ার জন্য একটি মুদ্রা ছুঁড়ে ফেলা প্রায়শই প্রকাশ করে যে আপনি আসলে পরিণতি সম্পর্কে যত্নশীল। ভবিষ্যদ্বাণীকারীদের বাছাই সম্পর্কে আপনার সিদ্ধান্ত গ্রহণের প্রস্তাব দেয় এমন কোনও পদ্ধতি প্রায়শই এটি স্পষ্ট করে দেয় যে কোন ধারণা সম্পর্কে মডেলগুলির মধ্যে প্রাকৃতিকভাবে সম্পর্কিত, এমন ধারণাগুলি যা আপনি উপেক্ষা করতে চান না। লাসো সেভাবে কাজ করতে পারে।
নিক কক্স

5
আমি দ্বিতীয় @ নিক: "মডেল নির্বাচনের দিকনির্দেশনা দেওয়ার জন্য কোনও তত্ত্ব উপলব্ধ নেই" খুব কমই বাস্তবসম্মত। সাধারণ জ্ঞান তত্ত্ব।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

উত্তর:


29

পদক্ষেপের বাছাই করার কোনও কারণ নেই। এটা ঠিক ভুল।

লাসো / এলএআর হ'ল সেরা স্বয়ংক্রিয় পদ্ধতি। তবে সেগুলি স্বয়ংক্রিয় পদ্ধতি। তারা বিশ্লেষককে চিন্তা করতে দেয় না।

অনেক বিশ্লেষণে, কিছু পরিবর্তনশীল তাত্পর্যগুলির কোনও পরিমাপের নিয়মিত মডেল হওয়া উচিত। কখনও কখনও তারা প্রয়োজনীয় নিয়ন্ত্রণ ভেরিয়েবল হয়। অন্যান্য সময়, একটি ছোট প্রভাব সন্ধান করা যথেষ্ট গুরুত্বপূর্ণ হতে পারে।


43
"পদক্ষেপের বাছাই করার কোনও কারণ নেই। এটি কেবল ভুল।" - প্রায়শই কখনও এরকম অবিশ্বাস্যরূপে পরিষ্কার বক্তব্য থাকে না, প্রসঙ্গবিহীন, ভাল পরিসংখ্যান চর্চা। যদি এখানে কিছু "ঠিক ভুল" হয় তবে এটি উপরের সাহসী বিবৃতি। যদি আপনার বিশ্লেষণ ভ্যালু বা প্যারামিটারের প্রাক্কলনগুলিতে (উদাঃ ভবিষ্যদ্বাণীমূলক মডেলগুলি) জোর দিচ্ছে না তবে ধাপে ধাপে চলক নির্বাচন করা একটি বুদ্ধিমান জিনিস হতে পারে এবং কিছুটা ক্ষেত্রে :: হাঁপা :: লাসোকে ছাড়িয়ে যেতে পারে। (পিটার, আমি জানি আমাদের আগে এই কনভো ছিলো - এই মন্তব্যটি ভবিষ্যতের পাঠকের কাছে আরও বেশি নির্দেশিত যারা কেবল এই পোস্টটি জুড়ে আসতে পারেন অন্যটি নয়)। p
ম্যাক্রো

4
পদক্ষেপের কম্বল সমালোচনার কারণে -১। এটি "ঠিক ভুল" নয় তবে একটি নির্দোষ মডেল অনুসন্ধান হিসাবে এটির একটি জায়গা রয়েছে। স্বয়ংক্রিয় পদ্ধতি সম্পর্কে আপনার বোনটে সত্যিই একটি মৌমাছি রয়েছে।
সম্ভাব্যতাব্লোগিক

8
@ এলভিস, আমি এই বিষয়ে কোনও বিশেষজ্ঞ বা পদক্ষেপের পক্ষে কোন আইনজীবী নই; আমি কেবলমাত্র বিবৃতিটির শর্তহীন প্রকৃতি নিয়েই সমস্যা নিচ্ছি। তবে, কৌতূহলের বাইরে আমি কিছু সাধারণ সিমুলেশন করেছিলাম এবং দেখেছি যে যখন আপনার কাছে প্রচুর পরিমাণে কলিনারি প্রেডিক্টর রয়েছে যেগুলিগুলির প্রায় সমান প্রভাব রয়েছে, তখন পিছনের নির্বাচনটি ল্যাসো-এর চেয়ে বেশি ভাল-না-করে নমুনা পূর্বাভাসের ক্ষেত্রে থাকে। আমি সাথে । ভবিষ্যদ্বাণীকারীরা প্রতিটি জোড় জন্য দিয়ে স্ট্যান্ডার্ড স্বাভাবিক । ε ~ এন ( 0 , 1 ) ( এক্স আমি , এক্স আমি k ) = 1 / 2 ( , )
Yi=j=1100Xij+εi
εN(0,1)cor(Xij,Xik)=1/2(j,k)
ম্যাক্রো

10
যে কোনও রিগ্রেশন শুরু করার আগে আপনার অবশ্যই অবশ্যই তদন্ত করা উচিত। আমি বলব যে যদি আপনার কাছে প্রচুর পরিমাণে কলিনারি ভেরিয়েবল থাকে তবে আপনার লাসো বা স্টেপওয়াইজ ব্যবহার করা উচিত নয়; আপনার হয় কোলিনারিটি সমস্যা সমাধান করা উচিত (ভেরিয়েবল মুছুন, আরও ডেটা পাবেন ইত্যাদি) অথবা এই জাতীয় সমস্যার জন্য নকশা করা কোনও পদ্ধতি ব্যবহার করুন (যেমন রিজ রিগ্রেশন)
পিটার ফ্লুম

5
ঠিক আছে, আপনি ঠিক বলেছেন তবে আমি মনে করি এটি সত্যিই প্রাসঙ্গিক নয়। পিছনে পিছনে NOR লাসো (বা কোনও পরিবর্তনশীল নির্বাচন পদ্ধতি) সমস্ত সমস্যার সমাধান করে না। মডেলিং শুরু করার আগে আপনাকে কিছু করতে হবে - এবং সেগুলির একটি হ'ল কলিনারিটি পরীক্ষা করা। উভয় পদ্ধতি প্রয়োগ করার জন্য যে পদ্ধতিটি নিয়ন্ত্রণের নিয়মকে লঙ্ঘন করেছে এমন অন্যান্য ডেটা সেটগুলির জন্য কোন পরিবর্তনশীল নির্বাচনের পদ্ধতিটি কাজ করেছে তাও আমি খেয়াল করব না।
পিটার ফ্লুম

22

আপনি যদি কেবলমাত্র পূর্বাভাস ত্রুটির বিষয়েই যত্নশীল হন এবং ব্যাখ্যাযোগ্যতা, নৈমিত্তিক অনুক্রম, মডেল-সরলতা, সহগের পরীক্ষাগুলি ইত্যাদির বিষয়ে চিন্তা না করেন তবে আপনি কেন লিনিয়ার রিগ্রেশন মডেলটি ব্যবহার করতে চান?

আপনি সিদ্ধান্তের গাছগুলিকে উত্সাহ দেওয়ার মতো কিছু ব্যবহার করতে পারেন বা ভেক্টর রিগ্রেশনকে সমর্থন করতে পারেন এবং আরও ভাল পূর্বাভাসের গুণমান পেতে পারেন এবং এখনও উল্লিখিত উভয় ক্ষেত্রেই অত্যধিক ফিটনেস এড়াতে পারেন। এটি হ'ল লাসো সেরা পূর্বাভাসের গুণমান পাওয়ার জন্য সেরা পছন্দ নাও হতে পারে।

যদি আমার বোধগম্যতা সঠিক হয়, লাসো এমন পরিস্থিতিতে তৈরি করা যখন আপনি এখনও মডেলটিতে আগ্রহী হন, কেবল পূর্বাভাসই নয়। এটি হ'ল - নির্বাচিত ভেরিয়েবলগুলি এবং তার সহগগুলি দেখুন, কোনও উপায়ে ব্যাখ্যা করুন And এবং এর জন্য - এখানে অন্যান্য প্রশ্নে আলোচিত হিসাবে কিছু পরিস্থিতিতে লাসো সেরা পছন্দ নাও হতে পারে।


20

এলএএসএসও সহগের সংখ্যাগুলি 0 তে সঙ্কুচিত করতে উত্সাহ দেয়, অর্থাত আপনার মডেল থেকে those রূপগুলি বাদ দেয়। বিপরীতে, অন্যান্য একটি নিয়মিত কৌশল যেমন একটি রিজের মতো সমস্ত প্রবণতা রাখে।

সুতরাং আমি আপনার ডেটাটির জন্য এই ড্রপিংটি অর্থবোধ করে কিনা সে সম্পর্কে চিন্তাভাবনা করার পরামর্শ দেব। উদাহরণস্বরূপ জিন মাইক্রোয়ারে ডেটা বা কম্পনীয় বর্ণালী সম্পর্কিত ডেটাতে একটি ক্লিনিকাল ডায়াগনস্টিক পরীক্ষা স্থাপনের কথা বিবেচনা করে।

  • আপনি কিছু জিনকে প্রাসঙ্গিক তথ্য বহন করবেন বলে আশাবাদী, তবে প্রচুর অন্যান্য জিন কেবল শোরগোলের শব্দ। আপনার আবেদন. এই বৈচিত্রগুলি বাদ দেওয়া একটি পুরোপুরি বুদ্ধিমান ধারণা।

  • বিপরীতে, কম্পনের বর্ণালী সম্পর্কিত ডেটা সেটগুলি (সাধারণত মাইক্রোআরাইয়ের ডেটার তুলনায় একই জাতীয় মাত্রা থাকা অবস্থায়) বর্ণালী (পারস্পরিক সম্পর্ক) এর বৃহত অংশগুলির উপর প্রাসঙ্গিক তথ্য "গন্ধযুক্ত" রাখে। এই পরিস্থিতিতে, নিয়মিতকরণের বৈচিত্রগুলি বাদ দেওয়ার জন্য জিজ্ঞাসা করা কোনও বিশেষ বোধশক্তি নয়। তত বেশি, যেমন PLS এর মতো অন্যান্য নিয়মিতকরণ কৌশলগুলি এই ধরণের ডেটার সাথে আরও খাপ খায়।

স্ট্যাটিস্টিকাল লার্নিংয়ের এলিমেন্টগুলি লাসো সম্পর্কে একটি ভাল আলোচনা দেয় এবং এটি অন্যান্য নিয়মিতকরণের কৌশলগুলির সাথে বিপরীতে দেয়।


14

যদি দুটি পূর্বাভাসকারী অত্যন্ত পরস্পরের সাথে সম্পর্কিত হয় তবে LASSO একটিকে বাদ দিয়ে ইচ্ছামত ছাড়তে পারে। আপনি যখন এমন দুটি জন ভবিষ্যদ্বাণীকারীকে খুব বেশি সংযুক্ত করেন না এমন জনসংখ্যার জন্য ভবিষ্যদ্বাণী করতে চান তখন এটি খুব ভাল নয় এবং সম্ভবত এই পরিস্থিতিতে রিজ রিগ্রেশনকে প্রাধান্য দেওয়ার কারণ।

আপনি ভবিষ্যদ্বাণীকারীদের মানককরণ (এমনকি গুণাগুণগুলি "বড়" বা "ছোট" বলতে গেলে) স্বেচ্ছাসেবী হিসাবে বিবেচনা করতে পারেন এবং শ্রেণিবদ্ধ ভবিষ্যদ্বাণীকে মানক করার বুদ্ধিমান উপায় সম্পর্কে বিস্মিত হন (আমার মতো)।


1
এই উত্তরের জন্য ধন্যবাদ। সম্পর্কের পূর্বাভাসকারী / শ্রেণিবদ্ধ ভবিষ্যদ্বাণীদের সাথে সমস্যাগুলি নিয়ে আলোচনা করে এমন কোনও কাগজপত্র জানেন?
বার্ক ইউ

2
এটি যুক্তিযুক্ত যে এখানে অন্যান্য দণ্ডিত রিগ্রেশন পদ্ধতি রয়েছে যা এই সমস্যাগুলি (যেমন ইলাস্টিক নেট) উপশম করার চেষ্টা করে।
বিডিওনোভিচ

উচ্চ কোলাইনারি ভেরিয়েবলের সাথে ভেরিয়েবল নির্বাচন করার জন্য, পুনরাবৃত্তাকারী অভিযোজক রিজ (যা এল 0 পেনালাইজড রিগ্রেশন এবং প্রায় l0ara প্যাকেজে প্রয়োগ করা হয়) L0Learn প্যাকেজে কার্যকর হিসাবে ভাল সঞ্চালনের
ঝোঁক দেয়,

9

লাসো কেবল তখনই কার্যকর যদি আপনি অনুমিত হওয়ার প্যারামিটারগুলিতে রৈখিক মডেলগুলি বিবেচনা করতে নিজেকে সীমাবদ্ধ করে থাকেন। অন্যভাবে উল্লেখ করা হয়েছে, লাসো মূল্যায়ন করে না যে আপনি স্বাধীন এবং নির্ভরশীল পরিবর্তনশীল (গুলি) এর মধ্যে সম্পর্কের সঠিক ফর্মটি বেছে নিয়েছেন কিনা।

এটি অত্যন্ত প্রশংসনীয় যে একটি স্বেচ্ছাসেবী ডেটা সেটে অরৈখিক, ইন্টারেক্টিভ বা বহুপদী প্রভাব থাকতে পারে। তবে, ব্যবহারকারী বিকল্প বিশ্লেষণটি পরিচালনা করলেই এই বিকল্পগুলির মডেল স্পেসিফিকেশনগুলি মূল্যায়ন করা হবে; লাসো এটি করার বিকল্প নয়।

এটি কীভাবে ভুল হতে পারে তার একটি সাধারণ উদাহরণের জন্য, একটি ডেটা সেট বিবেচনা করুন যাতে স্বতন্ত্র ভেরিয়েবলের বিরতি বিরতি নির্ভরশীল ভেরিয়েবলের উচ্চ এবং নিম্ন মানের পরিবর্তনের পূর্বাভাস দেয়। প্রচলিত রৈখিক মডেলগুলি ব্যবহার করে বাছাই করা চ্যালেঞ্জক হবে, যেহেতু বিশ্লেষণের জন্য উপস্থিত ম্যানিফেস্ট ভেরিয়েবলগুলিতে কোনও রৈখিক প্রভাব নেই (তবে ম্যানিফেস্ট ভেরিয়েবলের কিছু রূপান্তর সহায়ক হতে পারে)। এর প্রকাশ্য আকারে রেখেই, লাসো ভুলভাবে এই সিদ্ধান্তে উঠবে যে এই বৈশিষ্ট্যটি বহিরাগত এবং এর সহগের শূন্যের বাইরে চলে কারণ কোনও রৈখিক সম্পর্ক নেই। অন্যদিকে, ডেটাগুলিতে অক্ষ-সংযুক্ত স্প্লিট রয়েছে বলে, এলোমেলো বনের মতো একটি গাছ ভিত্তিক মডেল সম্ভবত বেশ ভাল করবে।

এখানে চিত্র বর্ণনা লিখুন


5

লাসো এবং অন্যান্য নিয়মিতকরণের কৌশলগুলির একটি ব্যবহারিক অসুবিধাটি হ'ল সর্বোত্তম নিয়মিতকরণ সহগ, ল্যাম্বদা। এই মানটি সন্ধানের জন্য ক্রস বৈধতা ব্যবহার করা ধাপে ধাপে নির্বাচন কৌশলগুলির মতোই ব্যয়বহুল হতে পারে।


"ব্যয়বহুল" বলতে কী বোঝ?
999

4
এই দাবি সত্য নয়। যদি আপনি গ্ল্যামনেট পদ্ধতির মতো "ওয়ার্ট স্টার্ট" গ্রিড অনুসন্ধান গ্রহণ করেন, আপনি খুব দ্রুত পুরো গ্রিডটি গণনা করতে পারেন।
সম্ভাব্যতাব্লোগিক

1
@ প্রোব্যাবিলিটিস্লোগিক সত্য, উপরের মন্তব্য করার পরে আমি কেবল উষ্ণ শুরু সম্পর্কে পড়ি। আপনি এই কাগজটি সম্পর্কে কী ভাবেন, যা সূচিত করে যে উষ্ণ সূচনাগুলি ধীরে ধীরে এবং কখনও কখনও সাধারণ ক্রস বৈধতার চেয়ে কম কার্যকর হয়? users.cis.fiu.edu/~lzhen001/ Activities
KDD2011

5
λ

5

আমি লাসো বিশেষজ্ঞ নই তবে আমি সময় সিরিজের বিশেষজ্ঞ। আপনার যদি সময় সিরিজের ডেটা বা স্থানিক ডেটা থাকে তবে আমি স্বাধীনভাবে পর্যবেক্ষণে ভবিষ্যদ্বাণী করা এমন সমাধানটি দৃ stud়তার সাথে এড়াতে চাই। তদুপরি যদি অজানা নির্বিচার প্রভাব থাকে যা আপনার ডেটা (স্তর স্তর / সময়ের প্রবণতা ইত্যাদি) নিয়ে সর্বনাশ করেছে তবে লাসো আরও ভাল একটি হাতুড়ি হতে পারে। সমাপ্তির সময় যখন আপনার সময় সিরিজের ডেটা থাকে আপনার প্যারামিটারগুলির সাথে বা সময়ের সাথে পরিবর্তিত হওয়া ত্রুটির বৈকল্পিকের মুখোমুখি হলে আপনার প্রায়শই ডেটা বিভাগ করা প্রয়োজন।


1
রিগ্রেশন-ভিত্তিক টাইম সিরিজের মডেল যেমন এআর অটোরিগ্রেশন (এআর), ভেক্টর অটোরগ্রিজিয়ানস (ভিএআর) এবং ভেক্টর ত্রুটি সংশোধন মডেলগুলি (ভিইসিএম) প্রয়োগ করার সময় লাসো ভাল পূর্বাভাস কর্মক্ষমতা সরবরাহ করতে পারে। উদাহরণস্বরূপ, লাসো ভেক্টর অটোরিগ্রেশনের জন্য সিচ এবং আপনি একাডেমিক সাহিত্যে অনেক উদাহরণ পাবেন। আমার নিজের অভিজ্ঞতায় স্থির ভিএআর মডেলগুলির জন্য লাসো ব্যবহার করা সমস্ত সাবসেট নির্বাচন বা রিজ নিয়মিতকরণের তুলনায় উচ্চতর পূর্বাভাস কর্মক্ষমতা সরবরাহ করে, যখন রিজ নিয়মিতকরণ লাসোকে সংহত ভিএআর মডেলগুলির জন্য হারায় (স্কোর্টির উত্তর অনুসারে মাল্টিকোলাইনারিটির কারণে)।
রিচার্ড হার্ডি

সুতরাং লাসোর ব্যর্থতা ডেটা টাইম সিরিজের সাথে অন্তর্নিহিত নয়।
রিচার্ড হার্ডি

2

এটি ইতিমধ্যে বেশ পুরানো প্রশ্ন তবে আমি অনুভব করছি যে ইতিমধ্যে এখানে বেশিরভাগ উত্তর বেশ পুরানো (এবং যা সঠিক উত্তর হিসাবে যাচাই করা হয়েছে তা সরল ভুল ইমো)।

প্রথমত, পূর্বাভাসের ভাল পারফরম্যান্স পাওয়ার ক্ষেত্রে এটি সর্বজনীনভাবে সত্য নয় যে লাসো সর্বদা পদক্ষেপের চেয়ে ভাল। "সেরা সাবসেট নির্বাচনের বর্ধিত তুলনা, ফরোয়ার্ড স্টেপওয়াইস সিলেকশন এবং লাসো" পত্রিকাটি হাস্টি এট আল (2017) ফরওয়ার্ড স্টেপওয়াইজ, লাসো এবং কিছু ল্যাসো ভেরিয়েন্টের পাশাপাশি রিল্যাক্সড ল্যাসো পাশাপাশি সেরা সাবসেটের বিস্তৃত তুলনা সরবরাহ করে এবং তারা দেখান যে ধাপের দিকটি কখনও কখনও লাসোর চেয়ে ভাল। যদিও লাসোর এক বৈকল্পিক - রিল্যাক্সড লাসো - এমনটি ছিল যা পরিস্থিতির বিস্তৃত পরিসরে সর্বোচ্চ মডেলের পূর্বাভাসের নির্ভুলতা তৈরি করেছিল produced যার সম্পর্কে উপসংহারটি সবচেয়ে ভাল যা আপনি সবচেয়ে ভাল বিবেচনা করছেন তার উপর অনেক বেশি নির্ভর করে যেমন, এটি সর্বাধিক পূর্বাভাসের নির্ভুলতা হবে বা কয়েকটি ভুয়া পজিটিভ ভেরিয়েবল নির্বাচন করা উচিত।

স্পারস লার্নিং পদ্ধতির একটি পুরো চিড়িয়াখানা রয়েছে যদিও এর বেশিরভাগই লাসোর চেয়ে ভাল। যেমন Meinhausen এর আছে নিরুদ্বেগ Lasso , অভিযোজিত Lasso এবং Scad এবং MCP শাস্তি রিগ্রেশন বাস্তবায়িত যেমন ncvregপ্যাকেজ, যা সব মান Lasso কম পক্ষপাত আছে এবং তাই preferrable হয়। তদ্ব্যতীত, আপনি যদি ভবিষ্যদ্বাণীমূলক পারফরম্যান্সের সাথে পরম স্পার্সেট সমাধানে আগ্রহী হন তবে এল0 দন্ডিত রিগ্রেশন (ওরফে সেরা উপসেট, যেমন ল্যাএসএও-র গুণফলগুলির পরম মানের যোগফলের বিপরীতে ননজারো সহগের এনআরআর এর শাস্তির উপর ভিত্তি করে) লাসোর চেয়ে ভাল, উদাহরণস্বরূপ l0araপ্যাকেজটি যা পুনরুক্তি অভিযোজক রিজ পদ্ধতিটি ব্যবহার করে L0 দণ্ডিত জিএলএমগুলির সমান করে, এবং যা লাসো থেকে পৃথক খুব উচ্চতর কলিনারি ভেরিয়েবল, এবং L0Learnপ্যাকেজ , যা L0 জরিমানা সংশোধন মডেল ফিট করতে পারে স্থানাঙ্ক নিয়ন্ত্রিত করার জন্য একটি এল 2 জরিমানার সাথে সংমিশ্রণে সমন্বিত বংশদ্ভুত ব্যবহার করে ফিট করতে পারে।

সুতরাং আপনার মূল প্রশ্নে ফিরে আসতে: কেন ভেরিয়েবল নির্বাচনের জন্য লাসো ব্যবহার করবেন না? :

(1) কারণ সহগগুলি উচ্চ পক্ষপাতদুষ্ট হবে, যা শিথিল করা লাসো, এমসিপি এবং এসসিএডি দন্ডিত দমন-পীড়নের ক্ষেত্রে উন্নতি করা হয়েছে এবং এল0 জরিমানাযুক্ত রিগ্রেশনটিতে সম্পূর্ণরূপে সমাধান করা হয়েছে (যার একটি সম্পূর্ণ ওরাকল সম্পত্তি রয়েছে, অর্থাত্ এটি কার্যকারিতা পরিবর্তনশীল এবং পুনরায় উভয়ই বেছে নিতে পারে) নিরপেক্ষ সহগগুলি, পি> এন ক্ষেত্রেও)

(2) কারণ এটি L0 শাস্তি রিগ্রেশন চেয়েও অনেক বেশি মিথ্যা positives উত্পাদন করতে থাকে (আমার পরীক্ষা l0araঅতঃপর যা উত্তম সঞ্চালিত, অর্থাত্ পুনরাবৃত্ত অভিযোজিত সেতুবন্ধ, দ্বারা অনুসরণ L0Learn)

(3) কারণ এটি কলিনারি ভেরিয়েবলগুলি ভালভাবে মোকাবেলা করতে পারে না (এটি মূলত এলোমেলোভাবে কলিনারি ভেরিয়েবলগুলির মধ্যে একটি নির্বাচন করবে) - পুনরুক্তি অভিযোজক রিজ / l0araএবং L0L2 জরিমানাগুলি এটির সাথে व्यवहार করার L0Learnক্ষেত্রে আরও ভাল।

অবশ্যই, সাধারণভাবে, আপনার পূর্বাভাসের সর্বোত্তম পারফরম্যান্স পেতে আপনার নিয়মিতকরণ পরামিতি (টি) টিউন করতে আপনার এখনও ক্রস বৈধতা ব্যবহার করতে হবে, তবে এটি কোনও সমস্যা নয়। এমনকি আপনি আপনার প্যারামিটারগুলিতে উচ্চ মাত্রিক অনুমান করতে পারেন এবং ননপ্যারমেট্রিক বুটস্ট্র্যাপিংয়ের মাধ্যমে পছন্দ করলে আপনার সহগের উপর 95% আত্মবিশ্বাসের ব্যবধান গণনা করতে পারেন (এমনকি প্রতিটি বুটস্ট্র্যাপড ডেটাসেটেও যদি আপনার ক্রস বৈধতা থাকে তবে সর্বোত্তম নিয়মিতকরণের নির্বাচনের অনিশ্চয়তার বিষয়টি বিবেচনা করে) যদিও এটি তখন বেশ ধীর হয়ে যায়)।

বিটিডব্লিউ-র কাছে ধাপে ধাপের চেয়ে লাসো ফিট করার পক্ষে ধীর নয়, অবশ্যই যদি কেউ আপনার লাসো নিয়মিতকরণের জন্য অনুকূল ব্যবহার করে এমন উচ্চতর অনুকূল কোড ব্যবহার করে না (আপনি fsপদক্ষেপের lassoজন্য এবং bestsubsetপ্যাকেজের লাসো-র জন্য কমান্ডটি ব্যবহার করে নিজেকে তুলনা করতে পারেন )। ধাপে ধাপে এগিয়ে যাওয়ার পদ্ধতিটি এখনও জনপ্রিয় বলে মনে করা যায় এমন অনেকের ভুল বিশ্বাসের সাথে সম্পর্কযুক্ত যা কেবলমাত্র আপনার চূড়ান্ত মডেলটি রাখতে পারে এবং এর সাথে সম্পর্কিত পি মানগুলি প্রতিবেদন করতে পারে - যা আসলে করা সঠিক জিনিস নয়, কারণ এটি হয় না আপনার মডেল নির্বাচনের দ্বারা প্রবর্তিত অনিশ্চয়তাটিকে বিবেচনায় আনুন, ফলস্বরূপ খুব আশাবাদী পি মানগুলির ফলে।

আশাকরি এটা সাহায্য করবে?


0

একটি বড় একটি হাইপোথিসিস টেস্টিংয়ের অসুবিধা। লাসোর সাথে কোন ভেরিয়েবল পরিসংখ্যানগতভাবে গুরুত্বপূর্ণ তা আপনি সহজেই অনুধাবন করতে পারবেন না। ধাপে ধাপে রিগ্রেশন সহ, আপনি যদি একাধিক পরীক্ষার চিকিত্সা সম্পর্কে সতর্ক হন তবে আপনি কিছুটা অনুমানের পরীক্ষা করতে পারেন।


8
আমি বলব এটি কোনও সুবিধা নয়, কোনও অসুবিধা নয়। এটি আপনাকে এমন কিছু করতে বাধা দেয় যা আপনার সম্ভবত করা উচিত নয়।
পিটার ফ্লুম

@ পিটার: কেন? আমি ধরে নিচ্ছি যে আপনি একাধিক পরীক্ষার জন্য সঠিকভাবে সংশোধন করবেন, ইত্যাদি, যেমন প্রাপ্ত পি-মানগুলি বৈধ হবে would
ডিসিমচা

10
পদক্ষেপে একাধিক পরীক্ষার জন্য সঠিকভাবে সঠিক করার কোনও উপায় নেই। দেখুন, যেমন হ্যারেল রিগ্রেশন মডেলিং কৌশলগুলি। সঠিক সংশোধন করার কোনও উপায় নেই
পিটার ফ্লুম

4
এটা সত্য যে হাইপোথিসিস টেস্টিংয়ের অসুবিধা লাসোর সম্ভাব্য অসুবিধা। এটি সত্য নয় যে এটি ধাপে ধাপে ধাপে প্রতিবন্ধকতা a
গুং - মনিকা পুনরায়

2
লাসোর জন্য (নির্বাচন পরবর্তী পোস্ট) করণীয় বাছাইকরণ আনমন কাঠামো রয়েছে (অথবা নির্বাচনের পরে) কোনও পরিবর্তনশীল নির্বাচন পদ্ধতির জন্য অনুমিতরূপে করতে পারার জন্য ননপ্যারমেট্রিক বুটস্ট্র্যাপিং ব্যবহার করতে পারে এবং আপনার প্যারামিটারের অনুমানগুলিতে আত্মবিশ্বাসের বিরতি পেতে পারে। ..
টম Wenseleers
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.