ভেরিয়েবলের লাসো-চিহ্নিত উপসেটে ওএলএস অনুমানের চেয়ে লাসো অনুমানগুলি কেন ব্যবহার করবেন?


26

লাসোর রিগ্রেশন ধরুন সেরা সমাধান (উদাহরণস্বরূপ ন্যূনতম পরীক্ষার ত্রুটি) k বৈশিষ্ট্যগুলি নির্বাচন করে, যাতে \ টুপি {\ বিটা} ^ {লাসো} = \ বাম (\ টুপি \ a বিটা _1 _1 _1 {লাসো}, \ টুপি \ বিটা} _2 ^ ss লাসো}, ..., \ টুপি \ \ বিটা _ কে ^ {লাসো}, 0, ... 0 \ ডান)

L(β)=(Xβy)(Xβy)+λβ1,
βএকটি গুলি গুলি = ( β একটি গুলি গুলি 1 , β একটি গুলি গুলি 2 , , β একটি গুলি গুলি , 0 , ২.0 )kβ^একটিগুলিগুলি=(β^1একটিগুলিগুলি,β^2একটিগুলিগুলি,,β^একটিগুলিগুলি,0,২.0)

আমরা জানি যে (β^1একটিগুলিগুলি,β^2একটিগুলিগুলি,,β^একটিগুলিগুলি) একটি \ বাম (\ বিটা_1, \ বিটা_২, ..., \ বিটা_কে \ ডান) এর পক্ষপাতদুষ্ট অনুমান (β1,β2,,β), তবে কেন আমরা আরও 'যুক্তিসঙ্গত' পরিবর্তে চূড়ান্ত সমাধান হিসাবে \ টুপি {\ বিটা {{লাসো take গ্রহণ করব β^একটিগুলিগুলি? β^এনW=(β^1:এনW,0,,0) , যেখানে β^1:knew আংশিক মডেল এল ^ {নতুন} (\ বিটা_ {1: কে}) = (এক্স_ {1: কে} \ বিটা-ওয়াই) '(X_ {1: কে) এর এলএস অনুমান \ \ বিটা-ওয়াই)Lnew(β1:k)=(X1:kβy)(X1:kβy) । ( X_ {1: k কে নির্বাচিত বৈশিষ্ট্যের সাথে সম্পর্কিত XX1:k এর কলামগুলি বোঝায় )।Xk

সংক্ষেপে, আমরা কেন কেবল ভেরিয়েবল নির্বাচনের জন্য (এবং বাছাই করা বৈশিষ্ট্যগুলিতে অনুমানটি ওএলএসে রেখে) পরিবর্তিত বৈশিষ্ট্য নির্বাচনের জন্য এবং পরামিতি অনুমানের জন্য লাসো উভয়ই ব্যবহার করব?

(এছাড়াও, এর অর্থ কী যে 'লাসো সর্বাধিক n বৈশিষ্ট্যগুলি নির্বাচন করতে পারে '? n নমুনার আকার)


1
এটি একটি খুব ভাল প্রশ্ন। আপনি যদি কেউ নিজের মতো করে চেষ্টা করেন তবে স্ট্যান্ডার্ড লাসোর থেকে ফলাফল কতটা আলাদা হবে তা দেখার জন্য আপনি কয়েকটি সিমুলেশন চেষ্টা করেছেন?
প্লাসিডিয়া

3
আপনি কি লাসোতে "সঙ্কুচিত" উদ্দেশ্যটি বুঝতে পেরেছিলেন?
মাইকেল এম

6
গুণমানের অনুমানগুলি সংক্ষিপ্তভাবে সঙ্কুচিত করার ধারণাটি হ'ল কারণ আপনি সবচেয়ে বড়টি বেছে নিয়েছেন। আপনি পূর্বে বৈশিষ্ট্য নির্বাচন সম্পন্ন করার পরে স্বল্প স্কোয়ারের অনুমানগুলি আর পক্ষপাতহীন নয়।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

2
"সঙ্কুচিত পদ্ধতিগুলি কী সমস্যার সমাধান করে?" এর দুর্দান্ত উত্তরের জন্য নিম্নলিখিত প্রশ্নটি দেখুন? stats.stackexchange.com/questions/20295/…
ডিএল ডাহলি

2
পরিষ্কার হওয়ার জন্য: @ স্কার্টচি না বলা ভুল, তবে বৈশিষ্ট্য নির্বাচন নিয়ে আলোচনার সময় এটি ধূসর অঞ্চলগুলির কিছুটা এবং আমি মনে করি এটি একটি গুরুত্বপূর্ণ প্রযুক্তিগত বিষয় যা খুব পরিষ্কার করা উচিত।
18

উত্তর:


27

ভেরিয়েবল নির্বাচনের জন্য লাসো ব্যবহার এবং তারপরে ওএলএস ব্যবহার করে কোনও সমস্যা আছে বলে আমি বিশ্বাস করি না। " পরিসংখ্যান শিক্ষার উপাদানগুলি " থেকে (পৃষ্ঠা 91)

... লাসো সঙ্কোচন অ-শূন্য সহগের হিসাবগুলি শূন্যের দিকে পক্ষপাতদুষ্ট করে তোলে এবং সাধারণভাবে তারা সামঞ্জস্যপূর্ণ হয় না [ যুক্ত দ্রষ্টব্য: এর অর্থ, নমুনার আকার বাড়ার সাথে সাথে গুণাগুলি অনুমানগুলি রূপান্তরিত হয় না]এই পক্ষপাতিত্ব হ্রাস করার জন্য একটি পদ্ধতি হ'ল শূন্য-সহগের সেটটি সনাক্ত করতে লাসো চালানো এবং তারপরে বৈশিষ্ট্যগুলির নির্বাচিত সেটগুলিতে একটি সীমিত-সীমিত রৈখিক মডেল ফিট করে। নির্বাচিত সেটটি বড় হলে এটি সর্বদা সম্ভব হয় না। বিকল্পভাবে, শূন্য-পূর্বানুমানকারীদের সেট নির্বাচন করতে কেউ লাসো ব্যবহার করতে পারে এবং তারপরে আবার লসো প্রয়োগ করতে পারে তবে প্রথম পদক্ষেপ থেকে কেবলমাত্র নির্বাচিত ভবিষ্যদ্বাণী ব্যবহার করে। এটি শিথিল লাশো নামে পরিচিত(মিনশাউসেন, 2007)। লাসোর প্রাথমিক পেনাল্টি প্যারামিটারটি অনুমান করার জন্য ক্রস-বৈধতা ব্যবহার করা এবং তারপরে আবার ভবিষ্যদ্বাণীকারীদের নির্বাচিত সেটটিতে প্রয়োগ করা দ্বিতীয় পেনাল্টি প্যারামিটারের জন্য পুনরায় প্রয়োগ করা উচিত। যেহেতু দ্বিতীয় ধাপের ভেরিয়েবলগুলি শব্দ ভেরিয়েবলগুলি থেকে কম "প্রতিযোগিতা" রয়েছে, তাই ক্রস-বৈধকরণের জন্য [পেনাল্টি প্যারামিটার] এর জন্য একটি ছোট মান বাছাই করা হবে এবং তাই তাদের সহগগুলি প্রাথমিক অনুমানের তুলনায় কম হ্রাস পাবে।λ

রিল্যাক্সড লাসোর মতো একইরকম অন্য যুক্তিযুক্ত পন্থা হ'ল প্রার্থী ভবিষ্যদ্বাণী ভেরিয়েবলগুলির একটি গ্রুপ সনাক্ত করতে একবার (বা বেশ কয়েকবার) লাসো ব্যবহার করা। তারপরে বিবেচনা করার জন্য সেরা পূর্বাভাসকারী ভেরিয়েবলগুলি নির্বাচন করতে সেরা সাবসেটের রিগ্রেশন ব্যবহার করুন (এটির জন্য "পরিসংখ্যানগত শিক্ষার উপাদানগুলি "ও দেখুন)। এটি কাজ করার জন্য, আপনাকে প্রার্থী পূর্বাভাসকারীদের গ্রুপটি প্রায় 35 এর নিচে পরিমার্জন করতে হবে, যা সবসময় সম্ভব হবে না। অতিরিক্ত-ফিটিং প্রতিরোধের জন্য আপনি মানদণ্ড হিসাবে ক্রস-বৈধকরণ বা এআইসি ব্যবহার করতে পারেন।


আমার প্রশ্নের আরও একটি অংশ হ'ল 'লাসো কেন সর্বাধিক এন বৈশিষ্ট্যগুলি নির্বাচন করতে পারে'? যদি এটি হয় তবে আমি মনে করি বাছাই করা বৈশিষ্ট্যগুলিতে ওএলএস কমপক্ষে 'ভাল' হবে, যেহেতু ওএলএসই 'ব্লু' (বেশিরভাগ পক্ষপাতদুষ্ট হওয়ার কারণে কঠোরভাবে নীল নয়)। কেবলমাত্র একটি চরম পরিস্থিতি বিবেচনা করুন যে লাসো সঠিক বৈশিষ্ট্যগুলি নির্বাচন করে, এই বৈশিষ্ট্যগুলিতে ওএলএস পরিচালনা করা সত্যিকারের মডেলটিকে পুনরুদ্ধার করবে, যা আমি লাসোর অনুমানের চেয়ে ভাল বলে মনে করি।
ইলিউইগল

2
সমস্যাটি হ'ল এই "চরম পরিস্থিতি" হওয়ার খুব সম্ভাবনা নেই এবং লাসো সঠিক বৈশিষ্ট্যগুলি নির্বাচন করেছে কিনা তা জানার কোনও উপায় নেই। যদি লাসো খুব বেশি বৈশিষ্ট্য নির্বাচন করে, তবে আমি মনে করি পুরো ওএলএস মডেলটি লাসোর অনুমানের চেয়ে খারাপ পারফর্ম করতে পারে। একইভাবে, খুব বেশি বৈশিষ্ট্য উপস্থিত থাকলে (যেমন ওএলএস ওভারফিট হয়) রিজ রিগ্রেশন ওএলএসকে ছাড়িয়ে যেতে পারে।
অ্যালেক্স উইলিয়ামস

2
ওয়েব.স্ট্যান্ডফোর্ড.ইডু / ~হাসটিই / স্ট্যাটলার্নস্পারসিটি_ফাইলস / এসএলএস.পিডিএফ , বিভাগ ২.২ এর সমাপ্তি দেখুন : "[...] সর্বনিম্ন বর্গগুলি [...] পূর্বাভাসকরা লাসোর অনুমানকে প্রসারিত করতে চান শূন্য থেকে দূরে। লাসো থেকে ননজারো অনুমান শূন্যের দিকে পক্ষপাতদুষ্ট থাকে, তাই ডান প্যানেলে ডিবিজিং প্রায়শই মডেলটির পূর্বাভাস ত্রুটির উন্নতি করতে পারে This এই দ্বি-পর্যায়ের প্রক্রিয়াটি শিথিল লাসো (মিনশাউসন 2007) নামেও পরিচিত । "
অ্যামিবা বলেছেন মনিকা

1
আমি মিনশাউসন পেপারে সন্ধান করেছি এবং এটি উপাদানগুলির থেকে আপনার মূল উদ্ধৃতিতে বর্ণিত হিসাবে এটি দুটি পেনাল্টি পরামিতি ফিট করার প্রস্তাব দেয়। +1
অ্যামিবা বলছেন মনিকাকে

@ অ্যালেক্সওয়িলিয়ামস তবে নির্বাচিত সেটটির মধ্যে পারস্পরিক সম্পর্কের বিষয়ে পূর্ববর্তী অনুচ্ছেদে কোনও স্পারসিটি অনুমান নেই এবং কী ছোট হওয়া সরিয়ে ফেলা হবে?
দিমিত্রি ভি। মাস্টারভ

15

যদি আপনার লক্ষ্যটি সর্বাধিক নমুনা কর্মক্ষমতা (আর্ট সর্বাধিক আর-স্কোয়ার্ড) হয় তবে কেবলমাত্র প্রতিটি উপলভ্য চলকটিতে ওএলএস ব্যবহার করুন। ভেরিয়েবলগুলি বাদ দেওয়া আর-স্কোয়ার হ্রাস পাবে।

যদি আপনার লক্ষ্যটি নমুনা ছাড়াই বাহ্যিক পারফরম্যান্স হয় (যা সাধারণত যা অনেক বেশি গুরুত্বপূর্ণ হয়) তবে আপনার প্রস্তাবিত কৌশলটি ওভারফিটের দুটি উত্স থেকে ভোগ করবে:

  • প্রতিক্রিয়া ভেরিয়েবলের সাথে সম্পর্কের ভিত্তিতে ভেরিয়েবলের নির্বাচন
  • ওএলএস অনুমান

লাসোর উদ্দেশ্য হ'ল পরামিতিগুলির দুটি উত্সের উপরে লড়াই করার জন্য প্যারামিটারের অনুমানকে শূন্যের দিকে সঙ্কুচিত করা। ইন-নমুনা পূর্বাভাসগুলি সর্বদা ওএলএসের চেয়ে খারাপ হতে পারে তবে নমুনা ছাড়াই আরও বাস্তবসম্মত আচরণ পাওয়ার আশা (শাস্তির জোরের উপর নির্ভর করে) is

সংক্রান্ত এই (সম্ভবত) আপনি ব্যবহার করছেন Lasso বাস্তবায়ন উপর নির্ভর করে। একটি রূপ, লার্স (সর্বনিম্ন কোণ রিগ্রেশন) সহজেই জন্য কাজ করে ।p>np>n


2
"লাইকাসো" (সর্বদা 10 সহগ বাছাই করা) প্রশ্নের প্রস্তাবের চেয়ে আলাদা (লাসো দ্বারা নির্বাচিত কে প্রেডিক্টরগুলির সাথে ওএলএসের পুনরায় অনুমান করুন)
16:42 এ এফাইন

@ আফিন আপনি সম্পূর্ণ সঠিক আমি রেফারেন্স সরিয়েছি।
মাইকেল এম

2
এটি যুক্তিসঙ্গত বলে মনে হচ্ছে তবে লাসোর আবিষ্কারকরা অন্যথায় তর্ক করেন এবং লাসো-চিহ্নিত উপসেটটিতে ওপিএসের সাথে দ্বি-পর্যায়ের প্রক্রিয়াটি ব্যবহার করার পরামর্শ দেন (যেমন ওপি পরামর্শ দিয়েছেন), @ অ্যালেক্সের উত্তর দেখুন।
অ্যামিবা বলছেন মনিকাকে

আমি এই উত্তরটি পছন্দ করি কারণ এটি অনুসন্ধান থেকে নিজেই পক্ষপাতিত্বের উল্লেখ করেছে; এটি নিশ্চিত করে মনে হয় যে অতিরিক্ত জরিমানা হওয়া উচিত। লাসো নিছক সাবসেট নির্বাচন পদ্ধতি হিসাবে - এটি কি সব? তারপরেও কেন এর সহগুণগুলি একেবারে মুদ্রণ করা যায়?
বেন ওগোরেক

3

কেন লাসো সর্বাধিক এন বৈশিষ্ট্যগুলি নির্বাচন করতে পারে সে বিষয়ে ওপিএসের প্রশ্ন সম্পর্কে :

কেন কোনও ওএলএস পক্ষপাতদুষ্ট হতে পারে তা বিবেচনা করুন: পর্যবেক্ষক ( এন ) এর চেয়ে বেশি প্রেডিক্টর ( পি ) থাকলেই এটি হয় । সুতরাং আকারের [পি, পি] । এ জাতীয় ম্যাট্রিক্সের বিপরীত গ্রহণ করা সম্ভব নয় (এটি এককথায় হতে পারে)।XTXβ=(XTX)1XTY

লাসো ভেরিয়েবলের সহগগুলি সঙ্কুচিত করতে বাধ্য হয় যাতে এটি না ঘটে, সুতরাং এটি কখনও কখনও N বৈশিষ্ট্যের বেশি পছন্দ করে না যাতে সর্বদা অবিচ্ছিন্ন থাকে।এক্সটিএক্স


1
(-1) আমি এটিকে সত্য বলে মনে করি না। আপনি কি বিদ্যমান নেই এবং লাসোর মধ্যে আরও সংযোগটি ব্যাখ্যা করতে পারেন ? বিশেষত, $ X ^ TX এর সাথে লাসোটির কী সম্পর্ক রয়েছে? ওপিএস প্রশ্নের প্রমাণ রয়েছে (উদাহরণস্বরূপ এখানে উত্তরগুলি প্রকাশ করা হচ্ছে: stats.stackexchange.com/questions/38299/…) তবে এই উত্তরটি প্রমাণিত হয় না। (দয়া করে আমার ভুল হয়ে থাকলে আমাকে জানান!)(এক্সটিএক্স)-1
ব্যবহারকারী 795305
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.