লাসোর স্বাধীনতার ডিগ্রিগুলির জন্য অন্তর্দৃষ্টি


12

Zou এট আল। "লাসোর" স্বাধীনতার ডিগ্রিতে " (2007) দেখায় যে নানজারো সহগের সংখ্যা লাসোর স্বাধীনতার ডিগ্রিগুলির জন্য একটি পক্ষপাতহীন এবং ধারাবাহিক অনুমান।

এটা আমার কাছে কিছুটা পাল্টা মনে হচ্ছে।

  • ধরুন আমাদের একটি রিগ্রেশন মডেল রয়েছে (যেখানে ভেরিয়েবলগুলি শূন্যের মাঝামাঝি)

y=βx+ε.
  • ধরুন একটি অবাধ OLS ঔজ্জ্বল্যের প্রেক্ষাপটে এর অনুমান হয় । এটি খুব কম জরিমানার তীব্রতার জন্য LA একটি লাসো অনুমানের সাথে মোটামুটি মিলতে পারে ।β হে এল এস = 0.5 βββ^OLS=0.5β
  • আরও ধরুন একটি নির্দিষ্ট শাস্তি তীব্রতা জন্য Lasso অনুমান যে হয় । উদাহরণস্বরূপ, ক্রস বৈধতা ব্যবহার করে হাতে পাওয়া ডেটা সেট করার জন্য "অনুকূল" হতে পারে । * β এল একটি এস এস হে , λ * = 0.4 λ * λλβ^LASSO,λ=0.4λλ
  • যদি আমি সঠিকভাবে বুঝতে পারি তবে উভয় ক্ষেত্রেই স্বাধীনতার ডিগ্রি 1 হয় কারণ উভয়বারই একটি ননজারো রিগ্রেশন সহগ হয়।

প্রশ্ন:

  • চেয়ে উপযুক্ত "স্বাধীনতা" প্রস্তাব করলেও উভয় ক্ষেত্রেই কীভাবে স্বাধীনতার ডিগ্রি ? β হেএলএস=0.5β^LASSO,λ=0.4β^OLS=0.5

তথ্যসূত্র:


1
দুর্দান্ত প্রশ্ন, যে আরও মনোযোগ প্রাপ্য!
মাতিফু 25'19

উত্তর:


8

ধরুন আমাদের মাত্রিক পর্যবেক্ষণগুলির একটি সেট দেওয়া হয়েছে , , । ফর্মের একটি মডেল ধরে: যেখানে , , এবং অভ্যন্তরীণ পণ্যটিকে । আসুন ফিটিং পদ্ধতি (আমাদের উদ্দেশ্যে ওএলএস বা লাসো হয়) ব্যবহার করে অনুমান করা যাক । নিবন্ধে প্রদত্ত স্বাধীনতার ডিগ্রিগুলির সূত্র (সমীকরণ 1.2): n pxiRpi=1,,n

Yi=β,xi+ϵ
ϵN(0,σ2)βRp,β^=δ({Yi}i=1n)βδ
df(β^)=i=1nCov(β^,xi,Yi)σ2.

আপনার অনুভূতি অনুযায়ী এই সূত্র আমরা যে অনুমান করতে পারি পরিদর্শন, দ্বারা, সত্য Lasso জন্য ডেপথ অফ ফিল্ড প্রকৃতপক্ষে চেয়ে কম হবে সত্য OLS ঔজ্জ্বল্যের প্রেক্ষাপটে এর ডেপথ অফ ফিল্ড; লাসো দ্বারা প্রভাবিত গুণাগুণ-সংকোচনের সাথে সমবায়িকাগুলি হ্রাস হওয়া উচিত।

এখন, আপনার প্রশ্নের উত্তর দেওয়ার জন্য, লাসোর জন্য ডিওএফ যেমন আপনার উদাহরণের জন্য ওএলএসের জন্য ডিওএফ-এর সমান, কেবল সেখানেই আপনি মডেল থেকে নমুনাযুক্ত একটি নির্দিষ্ট ডেটাসেট থেকে প্রাপ্ত অনুমানের সাথে কথা বলছেন (পক্ষপাতদুষ্ট হলেও) , সত্য ডিওএফ মানগুলির। যে কোনও নির্দিষ্ট ডেটাসেটের জন্য, এই জাতীয় অনুমানটি সত্য মানের সাথে সমান হবে না (বিশেষত যেহেতু প্রাক্কলনটি একটি পূর্ণসংখ্যা হিসাবে প্রয়োজন হয় যখন সত্যের মানটি একটি আসল সংখ্যা হয়)।

যাইহোক, নিরপেক্ষতা এবং বিপুল সংখ্যক আইনকে এই মডেল থেকে নমুনাযুক্ত অনেকগুলি ডেটাসেটের তুলনায় যখন এ জাতীয় অনুমানের গড় গড় হয় তখন সত্য ডিওএফ-তে রূপান্তরিত হয়। লাসো-র ক্ষেত্রে, সেই কয়েকটি ডেটাসেটের ফলাফল এমন একটি অনুমানকারী তৈরি করবে যেখানে সহগটি আসলে 0 হয় (যদিও dat ছোট হলে এই জাতীয় ডেটাসেট বিরল হতে পারে )। ওএলএসের ক্ষেত্রে, ডিওএফের অনুমান সবসময় সহগের সংখ্যা হয়, শূন্য-সহগের সংখ্যা নয় , এবং ওএলএস ক্ষেত্রে গড়ের ক্ষেত্রে এই শূন্যগুলি থাকে না। এটি দেখায় যে অনুমানকারীরা কীভাবে আলাদা হয় এবং লাসো ডিওএফ-এর গড় অনুমানকারী কীভাবে ওএলএস ডফের গড় অনুমানের চেয়ে ছোট কিছুতে রূপান্তর করতে পারে।λ


1
আমার ভুল এবং অনর্থক সূত্র সংশোধন করার জন্য ধন্যবাদ। আমি আপনাকে ভালভাবে বুঝতে পেরেছি কিনা তা আমাকে দেখতে দিন। মূলত, আমরা যদি বহুবার পরীক্ষার পুনরাবৃত্তি করতে পারি (বা একই জনসংখ্যার থেকে বহুবার নমুনা), আমরা মাঝে মাঝে পেয়ে ( শূন্যের দিকে সঙ্কুচিত হবে) এবং গড়ে (পরীক্ষা-নিরীক্ষা জুড়ে) আমি লাসো জন্য ডওফ পাবো এবং ওএলএস (স্পষ্টতই) এর জন্য ডওএফ পাব । <1=1β^LASSO=0<1=1
রিচার্ড হার্ডি

যাইহোক, স্বাধীনতার ডিগ্রিগুলির প্রাক্কলনটির পূর্ণসংখ্যা হওয়া দরকার কেন? সত্যিই তাই না? আমার আরও মন্তব্য করতে দিন যে অভ্যন্তরীণ পণ্য স্বরলিপি অকারণে জটিল দেখা যায় এবং খুব কমই এই সাইটে ব্যবহার করা হয়; ম্যাট্রিক্স স্বরলিপি যথেষ্ট হবে। তবে এটি অবশ্যই আপনার পছন্দ।
রিচার্ড হার্ডি

1
হ্যাঁ এটি সম্পর্কে সমষ্টি। স্বাধীনতার ডিগ্রির অনুমানটি লাসো (কমপক্ষে একটি একক ডেটাসেটের জন্য) এর পূর্ণসংখ্যা হতে পারে কারণ অনুমানটি শূন্য-সহগের সংখ্যা।
e2crawfo

1
বিবৃতিটি স্বাধীনতার ডিগ্রিগুলির অনুমানটি কেবলমাত্র লাসো-র জন্য একটি পূর্ণসংখ্যা হতে হবে কারণ অনুমানটি শূন্য-সহগের সংখ্যাটি আমার কাছে অত্যন্ত তাত্ত্বিক বলে মনে হয়। সাধারণভাবে, আমি মনে করি না যে আপনি যে df লিখেছিলেন তার খুব সংজ্ঞা থেকেই df এর পূর্ণসংখ্যা হওয়া দরকার। একইভাবে, রিজ ক্ষেত্রে এটি শূণ্যরূপে হয় না।
মাতিফু
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.