আপনি কোন সেটিংয়ে লারসের দ্বারা পাওয়া মডেলটি সম্পূর্ণ অনুসন্ধানের দ্বারা পাওয়া মডেল থেকে সবচেয়ে বেশি পৃথক হওয়ার প্রত্যাশা করবেন?


9

আরও কিছু তথ্য; হটাত যদি

  1. আপনি কতগুলি ভেরিয়েবল নির্বাচন করবেন তা আগে জানতেন এবং আপনি LARS পদ্ধতিতে জটিলতা জরিমানা নির্ধারণ করেছিলেন যেমন অ 0 0 সহগের সাথে অনেকগুলি ভেরিয়েবল থাকতে পারে,
  2. গণনা ব্যয় কোনও সমস্যা নয় (ভেরিয়েবলের মোট সংখ্যা ছোট, 50 বলুন),
  3. সমস্ত ভেরিয়েবল (y, x) অবিচ্ছিন্ন that

কোন সেটিংয়ে LARS মডেলটি (অর্থাত্ LARS ফিটে শূন্য সহগ নেই এমন ভেরিয়েবলগুলির ওএলএস ফিট) একই সংখ্যার সহগ সহ একটি মডেল থেকে পৃথক হবে তবে সম্পূর্ণ অনুসন্ধানের মাধ্যমে পাওয়া যাবে (একটি লা রেজসুবসেটস)?

সম্পাদনা: আমি 0 টির আসল 'সহগুণযুক্ত 10 ভেরিয়েবল (এবং সমস্ত বৈশিষ্ট্য একে অপরের সাথে দৃ strongly়ভাবে সম্পর্কযুক্ত) বাদে একটি আদর্শ গাউসিয়ান থেকে আঁকা আসল সহগের সাথে 50 টি ভেরিয়েবল এবং 250 টি পর্যবেক্ষণ ব্যবহার করছি। নির্বাচিত ভেরিয়েবলের দুটি সেটের মধ্যে পার্থক্য মিনিট হওয়ায় এই সেটিংস স্পষ্টতই ভাল নয়। সর্বাধিক পার্থক্য পাওয়ার জন্য কোন ধরণের ডেটা কনফিগারেশনটি অনুকরণ করা উচিত এটি সত্যিই একটি প্রশ্ন।

উত্তর:


1

এখানে ল্যারস অ্যালগরিদমের বর্ণনা এখানে দেওয়া হয়েছে: http://www-stat.stanford.edu/~tibs/lasso/simple.html এটি ধরণের রেজিস্ট্রারদের মধ্যে পারস্পরিক সম্পর্ককে উপেক্ষা করে তাই আমি অনুমান করতে চাই যে এটি সম্ভবত এড়াতে পারে না might বহুবিধ ক্ষেত্রে ক্ষেত্রে উপযুক্ত।


এটাই আসলে আমার প্রশ্নকে অনুপ্রাণিত করে। আমি 50 টি ভেরিয়েবলের সাথে সেটিংগুলি সিমুলেটেড করেছি যেখানে ভিআইএফের বৃহত্তম মান 30 এর বেশি এবং আমি এখনও দুটি পদ্ধতির মধ্যে খুব কম পার্থক্য (উদাহরণস্বরূপ নির্বাচিত মডেলের আর R 2 এর ক্ষেত্রে) দেখতে পাচ্ছি।
ব্যবহারকারী 60

1
আমি নিজেই স্টেপএআইসি এবং লার্সের সাথে পৃথক উত্তর পেয়েছি এবং কল্পনা করব যে আমার সমস্যাটি লাসো গ্রুপের সাথে চিকিত্সা করা উচিত - এটি পুরো ম্যাট্রিক্সের ভিআইএফ সম্পর্কে নয়, তবে সংযুক্তিযুক্ত ভেরিয়েবলগুলির বেশ কয়েকটি ক্লাস্টার।
অ্যালেক্স

হস্তক্ষেপ করা হচ্ছে ... আপনি কীভাবে এই জাতীয় ডেটা তৈরি করবেন? (অর্থাত্ সম্পর্কযুক্ত ভেরিয়েবলগুলির গুচ্ছ সহ)
ব্যবহারকারী 603

অনেকগুলি স্বতন্ত্র গ্রুপগুলির মধ্যে পারস্পরিক সম্পর্কের সাথে একত্রে স্ট্যাক করুন। আমি নিজেই বেশ কয়েকটি ব্র্যান্ড সম্পর্কে একই প্রশ্ন জিজ্ঞাসা করেছি - লোকেরা তাদের পছন্দের ব্র্যান্ডটি পছন্দ করে এবং অন্যকে অপছন্দ করে।
অ্যালেক্স

3

নমুনাগুলির সংখ্যার সাথে সম্পর্কিত আপনার আরও বৈশিষ্ট্যগুলি, LARS এর চেয়ে বহির্মুখী অনুসন্ধানের পদ্ধতির সাথে আপনার আরও বেশি ফিট করার সম্ভাবনা রয়েছে। এলএআরএস-তে ব্যবহৃত জরিমানার শর্তটি একক নিয়মিতকরণ পরামিতি দ্বারা সূচিত, ক্রমবর্ধমান জটিল মডেলের একটি নেস্টেড কাঠামো আরোপ করে, সুতরাং LARS এর সাথে বৈশিষ্ট্য নির্বাচনের "স্বাধীনতার ডিগ্রি" মোটামুটি কম। বহিরাগত অনুসন্ধানের জন্য, বৈশিষ্ট্য অনুসারে স্বাধীনতার এক (দ্বৈত) ডিগ্রি কার্যকর রয়েছে, যার অর্থ এক্সটাসিউটিভ অনুসন্ধান ডেটা এলোমেলো নমুনার কারণে বৈশিষ্ট্য নির্বাচনের মানদণ্ডে এলোমেলো পরিবর্তনশীলতাকে কাজে লাগাতে সক্ষম। ফলস্বরূপ, এক্সোসটিভ সার্চ মডেলটি "হাইপোথিসিস ক্লাস" বৃহত্তর হওয়ায় বৈশিষ্ট্য নির্বাচনের মানদণ্ডে মারাত্মকভাবে ফিচারযুক্ত হতে পারে।


আপনার উত্তরটি আমার প্রশ্নের সাথে সম্পর্কিত নয় বলে মনে হচ্ছে। এটি স্পষ্ট করার জন্য: আমি সত্যিই এমন পরিস্থিতি তৈরি করতে আগ্রহী যেখানে এলআরএস দ্বারা সক্রিয় হিসাবে নির্বাচিত ভেরিয়েবলের উপসেটটি বিস্তৃত অনুসন্ধানের দ্বারা নির্বাচিত থেকে সবচেয়ে বেশি আলাদা হবে, লার্স মডেলের মধ্যে আর ^ 2 এর পার্থক্যটি বলুন এবং একই সংখ্যক সক্রিয় ভেরিয়েবলের সহিত অনুসন্ধান মডেল । আপনি কি কোনও প্রতিকূল ঘটনা সম্পর্কে ভাবতে পারেন যেখানে এই পার্থক্যটি আরও বড় হবে? আপনি কি এই শর্তাবলী আপনার উত্তর পুনরায় বাক্য বলতে পারেন?
ইউজার 603

3
আমার উত্তরটি সরাসরি আপনার প্রশ্নের সাথে সম্পর্কিত। ওভার-ফিটিংয়ের ডিগ্রি কেবল বৈশিষ্ট্যগুলির সংখ্যা দ্বারা নিয়ন্ত্রিত হয় না, তবে ওজনগুলির মান দ্বারা by সুতরাং আরও বৈশিষ্ট্য ব্যবহার না করে অতিরিক্ত ফিট করা সম্ভব। LARS ওজনের परिमाणকে একটি জরিমানা দেয়, সুতরাং এটি এমন বৈশিষ্ট্যগুলি চয়ন করে না যা কেবলমাত্র বিশাল আকারের ওজন ব্যয় করে বর্গক্ষেত্রের ক্ষতি হ্রাস করে, যার কারণে এটি ওভার-ফিটনেসের প্রবণতা কম। এক্সোসভেটিভ অনুসন্ধানের পদ্ধতিগুলি মূলত ওভার-ফিটিংয়ের একটি রেসিপি, সুতরাং যে পরিস্থিতিতে ওভার-ফিটিং হওয়ার সম্ভাবনা রয়েছে সেখানে আপনি খুব আলাদা সমাধান পাবেন।
ডিকরান মার্সুপিয়াল

ঠিক আছে, আমি আপনার বক্তব্যটি পেয়েছি: এটি আমার আসল প্রশ্নে আমি দেখেছি এমন কিছু থেকে এসেছে (এবং আশা করি এখন আরও পরিষ্কার করা হয়েছে)। আমি আপেলকে এখানে আপেলের সাথে তুলনা করছি (যেমন নির্বাচিত মডেলগুলি), বা অন্য কথায়, এলআরএস দ্বারা নির্বাচিত সেই পরিবর্তনশীলগুলি ব্যবহার করে ((আর এর of 2 এর) ওএলএস ফিটগুলি ব্যবহার করে ওয়ালএস ফিট রয়েছে সম্পূর্ণ অনুসন্ধানের মাধ্যমে নির্বাচিত ভেরিয়েবলগুলি। আমি সরাসরি LARS সহগ ব্যবহার করছি না ....
ব্যবহারকারী 603

3
এটি অরথোগোনাল নয়, একটি মডেল আলাদা না হয়ে অন্যের চেয়ে ভাল হওয়ার সম্ভাবনা নেই। অতিরিক্ত-ফিট করার সম্ভাবনা রয়েছে এমন পরিস্থিতিতে এক্সোসটিভ অনুসন্ধান ভিত্তিক মডেলটি অস্থির হওয়ার সম্ভাবনা রয়েছে, অর্থাত আপনি যদি বিভিন্ন 500 টি নমুনা সংগ্রহ করেন তবে আপনি বৈশিষ্ট্যগুলির একটি আলাদা সেট পাবেন। অন্যদিকে LARS আরও স্থিতিশীল হতে তুলনামূলকভাবে। 50 টি বৈশিষ্ট্য এবং 500 টি নমুনা ওভারফিটের ফলস্বরূপ লাকলি কিনা তা ডেটাসেটের প্রকৃতির উপর নির্ভর করে, তবে এটি অবশ্যই সম্ভব। ক্লান্তিকর অনুসন্ধানগুলি এমন বৈশিষ্ট্য বাছাই করতে বাধ্য যেগুলি এই নমুনার সাথে তারতম্যটিকে অদ্ভুতভাবে ব্যাখ্যা করে; LARS কম তাই।
ডিকরান মার্সুপিয়াল

2
আপনি কেন এটি করতে চান তা যদি আপনি ব্যাখ্যা করতে পারেন তবে এটির সাহায্য হতে পারে । আপনার সন্দেহজনক জিনিসটি যা দেখতে হবে তা হ'ল সত্য মডেলের ওজনের দৈর্ঘ্য এবং সেই সাথে ডেটা বিতরণ। পেনালাইজড রিগ্রেশন মডেলগুলির (লাসো, লারস, এলারিস নেট, রিজ রিগ্রেশন) ওজনের বিতরণ প্রত্যাশিত বিতরণের একটি অগ্রাধিকার রয়েছে, সুতরাং আপনার যদি এমন কোনও ডেটাसेट থাকে যেখানে এটি অবৈধ, এটি শুরু করার জন্য ভাল জায়গা হতে পারে।
ডিকরান মার্শুপিয়াল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.