লাসোর তুলনায় সেরা উপসেট নির্বাচন কেন অনুকূল নয়?


13

আমি পরিসংখ্যান শেখার বইয়ের উপাদানগুলির সেরা উপসেট নির্বাচন সম্পর্কে পড়ছি। যদি আমার কাছে 3 পূর্বাভাস থাকে , আমি উপসেট তৈরি করব:2 3 = 8x1,x2,x323=8

  1. কোন ভবিষ্যদ্বাণীকারী সহ সাবসেট
  2. পূর্বাভাসকারী সাথে সাবসেটx1
  3. পূর্বাভাসকারী সাথে সাবসেটx2
  4. সাথে সাবসেটx3
  5. পূর্বাভাসকারীদের সাথে সাবসেটx1,x2
  6. সহ সাবসেটx1,x3
  7. পূর্বাভাসকারীদের সাথে সাবসেটx2,x3
  8. সহ সাবসেটx1,x2,x3

তারপরে আমি সেরা মডেলগুলি বেছে নেওয়ার জন্য এই সমস্ত মডেলকে পরীক্ষার ডেটাতে পরীক্ষা করি।

এখন আমার প্রশ্ন হল লাসোর তুলনায় সেরা সাবসেট নির্বাচন কেন অনুকূল নয়?

আমি যদি সর্বোত্তম উপসেট এবং লাসোর থ্রোহোল্ডিং ফাংশনগুলির সাথে তুলনা করি তবে আমি দেখতে পাচ্ছি যে সেরা উপসেটটি কয়েকটি সহগকে লসোর মতো শূন্যে সেট করে। তবে, অন্যান্য সহগ (অ-শূন্য নয়) এর অলস মানগুলি এখনও থাকবে, তারা উদ্বিগ্ন হবে। যেখানে লাসোতে কয়েকটি সহগের শূন্য হবে এবং অন্যদের (শূন্য নন) কিছুটা পক্ষপাতিত্ব থাকবে। নীচের চিত্রটি এটি আরও ভাল দেখায়: এখানে চিত্র বর্ণনা লিখুন

ছবিটি থেকে সেরা সাবসেটের ক্ষেত্রে লাল রেখার অংশটি ধূসর রঙের উপর পড়ছে। অন্য অংশটি এক্স-অক্ষে রয়েছে যেখানে সহগের কয়েকটি শূন্য রয়েছে। ধূসর লাইন নিরপেক্ষ সমাধানগুলি সংজ্ঞায়িত করে। লাসোতে কিছু পক্ষপাত । দ্বারা প্রবর্তিত হয় । এই চিত্র থেকে আমি দেখতে পাচ্ছি যে সেরা উপসেটটি লাসোর চেয়ে ভাল! সেরা উপসেট ব্যবহারের অসুবিধাগুলি কী কী?λ


1
.. এবং যখন ডাটাতে এলোমেলোভাবে আপনাকে অনেকগুলি ভুল সাবটাইটের মধ্যে একটি নির্বাচন করতে বাধ্য করে এবং এর সাথে সম্পর্কিত মানের সহগরী অনুমানগুলি তার মান ত্রুটির তুলনায় শূন্যের থেকে অনেক দূরে থাকে তখন কার্ভগুলি কেমন দেখায়?
jboman

2
@ জবোম্যান আমি এটি খুব স্পষ্টভাবে বুঝতে পারি না, কেন ডেটাগুলির এলোমেলোতা আমাকে ভুলটি নির্বাচন করতে বাধ্য করবে? আমি যদি সর্বোত্তম উপসেটটি নির্বাচন করতে ক্রস বৈধতা ব্যবহার করি তবে আমার তখন ভুল উপসেটটি নির্বাচন করার আরও কম সম্ভাবনা থাকবে।
ভিল

1
আপনি "আরও ভাল" এর সাথে "কম পক্ষপাত" সমান বলে মনে করছেন। নিরপেক্ষতার উপর এমন উচ্চ মূল্য রাখতে কী আপনাকে এনেছে?
ম্যাথু ড্রুরি

উত্তর:


16

সাবসেট নির্বাচনের ক্ষেত্রে ননজারো প্যারামিটারগুলি কেবলমাত্র পক্ষপাতহীন হবে যদি আপনি সঠিক মডেলের সুপারসেট বেছে নিয়ে থাকেন, অর্থাত্, যদি আপনি কেবলমাত্র সেই ভবিষ্যদ্বাণীদের অপসারণ করেছেন যাদের সত্য সহগের মান শূন্য। যদি আপনার নির্বাচনের পদ্ধতি আপনাকে একজন সত্যিকারের ননজারো সহগ সহ কোনও ভবিষ্যদ্বাণীকে বাদ দিতে পরিচালিত করে, তবে সমস্ত গুণফলের অনুমান পক্ষপাতমূলক হবে। এটি আপনার যুক্তিকে পরাস্ত করে যদি আপনি সম্মত হন যে নির্বাচনটি সাধারণত নিখুঁত নয়।

সুতরাং নিরপেক্ষ মডেলটির অনুমানের "নিশ্চিত" করার জন্য আপনাকে আরও, বা সমস্ত সম্ভাব্য প্রাসঙ্গিক ভবিষ্যদ্বাণীকে অন্তর্ভুক্ত করার পক্ষে ভুল করা উচিত। যে, আপনি মোটেও নির্বাচন করা উচিত নয়।

কেন এটি একটি খারাপ ধারণা? পক্ষপাত-বৈকল্পিক ট্রেড অফের কারণে। হ্যাঁ, আপনার বৃহত্তর মডেল পক্ষপাতহীন হবে, তবে এটির একটি বৃহত্তর বৈকল্পিকতা থাকবে এবং বৈকল্পিকটি ভবিষ্যদ্বাণী (বা অন্যান্য) ত্রুটির উপর প্রভাব ফেলবে।

সুতরাং, প্যারামিটারের অনুমানটি পক্ষপাতমূলক হবে তবে তা স্বল্পতর বৈসাদৃশ্য (নিয়মিতকরণ) হওয়ার চেয়ে এটি গ্রহণ করা ভাল , আমাদের সাবসেট নির্বাচনটি কেবল সত্য শূন্য প্যারামিটারগুলি সরিয়ে নিয়েছে তাই আমাদের আরও বড় বৈকল্পিক সহ একটি নিরপেক্ষ মডেল রয়েছে hope

λλ0pλλ0β^pলাসোর মাধ্যমে একে একে পুরোপুরি বাদ দেওয়া নয়, একটি (পরম) মান হিসাবে, , বা এটি অবাধে ভাসতে দিন, সেরা উপসেট যেমনটি করেন তেমন । β পি= β OLS ঔজ্জ্বল্যের প্রেক্ষাপটে পিβ^p=0β^p=β^pOLS

এটি সহায়ক হতে পারে: সংকোচন কেন কাজ করে?


হুম। লসোর চেয়ে সেরা উপসেট কেন খারাপ তা এই উত্তরগুলি বলে মনে করি না (যা এখানে মূল প্রশ্ন)।
অ্যামিবা বলেছেন মনিকা

@ অ্যামিবা: আপনি কি বিস্তারিত বর্ণনা করতে চান?
স্টিফান কোলাছা

ঠিক আছে, আমি প্রশ্নটি জিজ্ঞাসা করেছিলাম কেন লসো সেরা উপসেটটিতে সবচেয়ে বেশি পছন্দ করা হয়। কল্পনা করুন যে আমরা উভয়কে একটি ক্রস-বৈধকরণ লুপে রেখেছি এবং তারপরে হয় লাসো প্যারামিটারটি টিউন করুন বা সেরা উপসেটটি আবিষ্কার করুন। লাসো সাধারণত প্রস্তাবিত হয়। আমি কেন জিজ্ঞাসা হিসাবে প্রশ্ন বুঝতে পেরেছি ? (উদাহরণস্বরূপ Q এর শিরোনাম দেখুন) এবং আমি নিশ্চিত নই যে আপনার উত্তর আসলে উত্তর দিয়েছে। নাকি আমি আপনার উত্তর ভুল বুঝেছি?
অ্যামিবা বলেছেন মনিকা

1
সেরা সাবসেটের জন্য বাকি একটি সমস্যা হ'ল এটি কিছু প্যারামিটারকে হুবুহু হতে বাধ্য করে এবং অন্যকে অবাধে ভাসতে দেয়, সুতরাং অনুমানের মধ্যে একটি বিরতি রয়েছে, যা যদি আমরা লাসো একটি বিন্দু ছাড়িয়ে সেখানে নেই একটি ভবিষ্যদ্বাণীকারী অন্তর্ভুক্ত বা বাদ রয়েছে। আমি তর্ক করা চাই যে, আমরা যদি মূলত নিশ্চিত না কিনা অন্তর্ভুক্ত করা উচিত বা না, কারণ , তাহলে এটি পরামিতি অনুমান সীমাবদ্ধ আরো ইন্দ্রিয় তোলে বরং করেই দেওয়া যাক Lasso মাধ্যমে এটি অবাধে ভাসা। λ 0 পি পি λ λ 0 β পিλλ0ppλλ0β^p
স্টিফান কোলাসা

1
সম্মত হন যে এই উত্তরটি সত্যই উত্তর দেয় না - আমি নীচে
টম ওয়েনসিলিয়ার্স

11

নীতিগতভাবে, যদি সেরা উপসেটটি পাওয়া যায় তবে এটি লাসোর চেয়ে প্রকৃতপক্ষে আরও ভাল (1) প্রকৃতপক্ষে ফিটের ক্ষেত্রে অবদান রাখে এমন ভেরিয়েবলগুলি নির্বাচন করা, (2) ফিটগুলিতে অবদান রাখে না এমন ভেরিয়েবলগুলি নির্বাচন না করে, (3) পূর্বাভাস নির্ভুলতা এবং (4) নির্বাচিত ভেরিয়েবলের জন্য মূলত নিরপেক্ষ অনুমান উত্পাদন করা। লাসোর চেয়ে সেরা সাবসেটের উন্নত মানের পক্ষে যুক্তি দেওয়া একটি সাম্প্রতিক কাগজটি হ'ল বার্টসিমাস এট আল (২০১)) "আধুনিক অপ্টিমাইজেশনের লেন্সের মাধ্যমে সেরা সাবসেট নির্বাচন" । আরেকজন প্রবীণ যিনি একটি দৃ concrete় উদাহরণ দিচ্ছেন (স্পাইক ট্রেনগুলির ডিকনভোলিউশনে) যেখানে লাসো বা রিজের চেয়ে সেরা উপসেটটি ছিল ডি রুই অ্যান্ড ইলারের (২০১১) দ্বারা।

লাসোকে অনুশীলনে এখনও বেশি বেশি পছন্দ করা কারণ এটি গণনা করা বেশ সহজতর কারণ easier সেরা সাবসেট নির্বাচন, অর্থাৎ পেনাল্টি ব্যবহার করা মূলত একটি সংযুক্ত সমস্যা এবং এটি এনপি শক্ত, তবে লাসো সমাধানটি পাথওয়াইজ সমন্বিত বংশধর ব্যবহার করে নিয়মিতকরণের পথে গণনা করা সহজ। , ( আদর্শ ) হ'ল রিগ্রেশন / বেস্ট সাবসেট সিলেকশন (ব্রিজ রিগ্রেশন, অর্থাৎ ) উত্তল শিথিলকরণL 1 L 0 L কিউL0L1L0Lq আদর্শ দন্ডিত দন্ডিত রিগ্রেশন 0 এর কাছাকাছি লসোর চেয়ে সেরা সাবসেট নির্বাচনের কাছাকাছি হবে) , তবে এটি এখন উত্তল অপ্টিমাইজেশান সমস্যা নয় এবং এটি ফিট করার পক্ষে বেশ জটিল)।

লাসোর পক্ষপাতদুষ্টতা হ্রাস করার জন্য, উদ্ভূত মাল্টিস্টেপ পদ্ধতির যেমন অ্যাডাপটিভ লাসো (যেখানে সহগের কমপক্ষে স্কোয়ার বা রিজ রিগ্রেশন ফিটের পূর্বের অনুমানের ভিত্তিতে পৃথকভাবে শাস্তি দেওয়া হয়) বা শিথিল লাসো ব্যবহার করা যেতে পারে (একটি সহজ সমাধান করার জন্য একটি সমাধান) লাসো দ্বারা নির্বাচিত ভেরিয়েবলের ন্যূনতম স্কোয়ারগুলি ফিট করে)। সেরা সাবসেটের তুলনায় লাসো যদিও কিছুটা বেশি ভেরিয়েবল নির্বাচন করে। সেরা সাবসেট নির্বাচন আরও ভাল, তবে ফিট করা শক্ত।

L0রিল্যাক্সড লাসোর মতো সেরা সাবসেট, লাসো এবং কিছু লাসো রূপগুলির একটি বিস্তৃত তুলনা সরবরাহ করে এবং তারা দাবি করে যে শিথিল লাসো একটাই যা পরিস্থিতির বিস্তৃত পরিসরের অধীনে সর্বোচ্চ মডেল পূর্বাভাসের নির্ভুলতা তৈরি করেছিল, অর্থাৎ তারা তুলনায় ভিন্ন সিদ্ধান্তে এসেছিল than Bertsimas। তবে সর্বোপরি কোনটি উপসংহারটি সবচেয়ে ভাল তার উপর নির্ভর করে যা আপনি সবচেয়ে ভাল বিবেচনা করেন (উদাহরণস্বরূপ সর্বাধিক পূর্বাভাস নির্ভুলতা, বা প্রাসঙ্গিক ভেরিয়েবলগুলি বেছে নেওয়ার ক্ষেত্রে সেরা এবং অপ্রাসঙ্গিকগুলি সহ না; রিজ রিগ্রেশন উদাহরণস্বরূপ সাধারণত অনেকগুলি ভেরিয়েবল নির্বাচন করে তবে ক্ষেত্রেগুলির ক্ষেত্রে পূর্বাভাসের সঠিকতা অত্যন্ত কলিনের ভেরিয়েবলগুলি তবুও সত্যই ভাল হতে পারে)।

3 টি ভেরিয়েবলের সাথে খুব ছোট সমস্যার জন্য আপনি বর্ণনা করেছেন এটি স্পষ্ট ক্লিয়ার সেরা উপসেট নির্বাচনটি যদিও পছন্দসই বিকল্প।


1
"এটি লাসোর চেয়ে ভাল" এই বাক্যে "আরও ভাল" এর অর্থ কী?
ম্যাথু ড্রুরি

1
kλkkk

আরও কিছু বিশদ দেওয়ার জন্য আমার উত্তরটি কিছুটা সম্পাদনা করে ...
টম ভেনসিলিয়ার্স

আমি মনে করি না যে উত্তরগুলির কোনওটি স্থিতিশীলতার সমস্যার সমাধান করছে। ধাপে ধাপে এবং সমস্ত সম্ভাব্য সাবসেটের প্রতিরোধের মতো, lassoকুখ্যাতভাবে অস্থির। অন্য কথায় আপনি যদি পুরো প্রক্রিয়াটি বুটস্ট্র্যাপ করেন তবে আপনি নির্বাচিত বৈশিষ্ট্যের তালিকায় খুব বেশি স্বেচ্ছাসেবকতা খুঁজে পাবেন।
ফ্র্যাঙ্ক হ্যারেল

হ্যাঁ লাসো দ্বারা নির্বাচিত পরিবর্তনশীলগুলি অস্থির হতে পারে, এবং এটি আরও বেশি তাই সর্বোত্তম সাবসেট রিগ্রেশন - ক্ষেত্রে এই ক্ষেত্রে ইলাস্টিক নেট রিগ্রেশন কিছুটা ভাল - এটি তখন অনেকগুলি ভেরিয়েবল অন্তর্ভুক্ত করে তবে আরও কিছুতে নির্বাচিত স্থিতিশীল উপায়, এবং উচ্চ সহরেখার অধীনে আরও ভাল পূর্বাভাস নির্ভুলতা দিতে পারে। আপনার অ্যাপ্লিকেশনটির জন্য সবচেয়ে গুরুত্বপূর্ণ মাপদণ্ড কী - তার উপর অনেক কিছুই নির্ভর করে - পূর্বাভাসের সঠিকতা, অপ্রাসঙ্গিক ভেরিয়েবলগুলি অন্তর্ভুক্ত করার ভুয়া ইতিবাচক হার বা অত্যন্ত প্রাসঙ্গিক ভেরিয়েবলগুলি অন্তর্ভুক্ত না করার মিথ্যা নেতিবাচক হার ...
টম ওয়েন্সলিয়ার্স
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.