বৈশিষ্ট্যগুলি পরস্পর সম্পর্কিত হওয়ার পরে লাসো বা ইলাস্টিক নেট কেন রিজের চেয়ে আরও ভাল পারফর্ম করে


17

আমার 150 টি বৈশিষ্ট্য রয়েছে এবং এগুলির মধ্যে অনেকগুলি একে অপরের সাথে অত্যন্ত সংযুক্ত। আমার লক্ষ্যটি হল একটি বিচ্ছিন্ন ভেরিয়েবলের মান পূর্বাভাস দেওয়া, যার পরিসীমা 1-8 । আমার নমুনার আকার 550 এবং আমি 10-ভাঁজ ক্রস-বৈধতা ব্যবহার করছি ।

এএফএআইআইকি, নিয়মিতকরণ পদ্ধতিগুলির মধ্যে (লাসো, ইলাস্টিক নেট এবং রিজ) বৈশিষ্ট্যগুলির মধ্যে সম্পর্কের ক্ষেত্রে রিজ আরও কঠোর। এজন্য আমি প্রত্যাশা করেছিলাম যে রিজের সাথে আমার আরও সঠিক ভবিষ্যদ্বাণী করা উচিত। তবে, আমার ফলাফলগুলি দেখায় যে লাসো বা ইলাস্টিকের গড় নিরঙ্কুশ ত্রুটি 0.61 এর কাছাকাছি যেখানে এই স্কোরটি রিজ রিগ্রেশনটির জন্য 0.97 । আমি বিস্মিত এর কি ব্যাখ্যা হবে। এটি কি কারণ আমার অনেকগুলি বৈশিষ্ট্য রয়েছে এবং লাসো আরও ভাল সঞ্চালন করে কারণ এটি এক ধরণের বৈশিষ্ট্য নির্বাচন করে, অপ্রয়োজনীয় বৈশিষ্ট্যগুলি থেকে মুক্তি পেয়ে যায়?


1
আপনি কেন ভাবেন রিজ আরও ভাল করা উচিত? আপনার নমুনা আকার কি?
বিডিওনোভিক

1
"প্রতিরোধের আরও কঠোর" অর্থ কী?
বিডিওনোভিক

1
সম্পর্কিত এবং খুব সহায়ক: stats.stackexchange.com/questions/25611/… stats.stackexchange.com/questions/866/…
kjetil b halvorsen

উত্তর:


21

ধরা যাক আপনার কাছে দুটি উচ্চতর সম্পর্কযুক্ত প্রিডেক্টর ভেরিয়েবল এবং ধরুন উভয়ই কেন্দ্রিক এবং স্কেলড (মানে শূন্য, বৈকল্পিক একটি)। তারপর প্যারামিটার ভেক্টর উপর শৈলশিরা আযাব β 2 1 + + β 2 2 যখন Lasso শাস্তি শব্দ | β 1 | + + | β 2 | । এখন, যেহেতু মডেলটি অত্যন্ত কলিনিয়ার হিসাবে বিবেচিত, তাই এক্স এবং জেড কম বা কম Y এর পূর্বাভাস দেওয়ার জন্য একে অপরের প্রতিস্থাপন করতে পারে , x , z এর অনেক লিনিয়ার সংমিশ্রণ যেখানে আমরা খালি অংশে সাবস্টাইটিউট করবএক্স,z- রβ12+ +β22|β1|+ +|β2|এক্সz- রওয়াইএক্স,z- রজেড এর জন্য এক্স , পূর্বাভাসক হিসাবে খুব একইভাবে কাজ করবে, উদাহরণস্বরূপ 0.2 x + 0.8 x , 0.3 x + 0.7 z বা 0.5 x + 0.5 zএক্সz- র0.2এক্স+ +0.8এক্স,0.3এক্স+ +0.7z- র0.5এক্স+ +0.5z- রভবিষ্যদ্বাণীকারী হিসাবে প্রায় সমান ভাল হবে। এখন এই তিনটি উদাহরণ দেখুন, তিনটি ক্ষেত্রেই লাশো জরিমানা সমান, এটি 1, যখন রিজ পেনাল্টি পৃথক হয়, এটি যথাক্রমে 0.68, 0.58, 0.5 হয়, সুতরাং লাসো পেনাল্টি কলিনিয়ার ভেরিয়েবলের সমান ওজনকে পছন্দ করবে চয়ন করতে সক্ষম হবে না। এটি একটি কারণ রিজ (বা আরও সাধারণভাবে, ইলাস্টিক নেট, যা লাসো এবং রিজ পেনাল্টির একটি লিনিয়ার সংমিশ্রণ) কোলিনিয়ার পূর্বাভাসকারীদের সাথে আরও ভাল কাজ করবে: যখন ডেটা কলিনিয়ার প্রেডিক্টরের বিভিন্ন লিনিয়ার সংমিশ্রনের মধ্যে চয়ন করার সামান্য কারণ দেয়, লাসো ঠিক ঠিক করবে "বিচরণ" যখন রিজ সমান ওজন চয়ন করে। ভবিষ্যতে ডেটা ব্যবহারের জন্য এটি শেষের চেয়ে ভাল অনুমান হতে পারে! এবং, যদি বর্তমান উপাত্তগুলির সাথে এটি হয়, তবে ক্রস বৈধকরণে রিজ সহ আরও ভাল ফলাফল হিসাবে প্রদর্শিত হতে পারে।

আমরা এটিকে বেইসিয়ান পদ্ধতিতে দেখতে পারি: রিজ এবং লাসো বিভিন্ন পূর্বের তথ্যকে বোঝায় এবং রিজ দ্বারা বর্ণিত পূর্বের তথ্যগুলি এ জাতীয় পরিস্থিতিতে আরও যুক্তিসঙ্গত হতে থাকে। (এই ব্যাখ্যাটি আমি এখানে কম-বেশি শিখেছি: ট্র্যাভর হাসি, রবার্ট তিবশিরানী এবং মার্টিন ওয়াইনরাইটের "স্ট্যাটিস্টিকাল লার্নিং উইথ স্পারসিটি দ্য লাসো অ্যান্ড জেনারালাইজেশন" বইটি থেকে, তবে এই মুহুর্তে আমি সরাসরি উদ্ধৃতিটি খুঁজে পাইনি)।


4
ভবিষ্যতের ডেটাতে রিজ আরও ভালভাবে কাজ করার সম্ভাবনা সম্পর্কে ভাল বিষয়। বর্তমান উপাত্তে ক্রস-বৈধকরণের ত্রুটি এবং নতুন ডেটাতে উপযোগিতার মধ্যে পার্থক্যটি প্রায়শই মিস হয়। পরবর্তীকালের কিছু অনুমানের জন্য, ওপি তথ্যটির একাধিক বুটস্ট্র্যাপ নমুনায় পুরো লাসো, ইলাস্টিক-নেট এবং রিজ মডেল-বিল্ডিং প্রক্রিয়াগুলি পুনরায় পুনর্বার করতে পারে এবং তারপরে সম্পূর্ণ ডেটা সেটটিতে প্রয়োগ করার সময় ত্রুটিগুলি পরীক্ষা করতে পারে। এটি অন্তত মডেল-বিল্ডিং প্রক্রিয়া পরীক্ষা করে।
এডিএম

এটি কেন স্পষ্ট নয় যে কোলাইনারি ডেটার জন্য সমান ওজন চয়ন করা সুবিধাজনক হবে? কেউ কি এই বিষয়ে বিস্তারিত বলতে পারেন?
রামন মার্টিনেজ

3

লাসো এবং রিজের মধ্যে সবচেয়ে গুরুত্বপূর্ণ পার্থক্যটি হ'ল লাসো প্রাকৃতিকভাবে একটি নির্বাচন করে, বিশেষত যেখানে কোভেরিয়েটগুলি খুব পারস্পরিক সম্পর্কযুক্ত। লাগানো সহগগুলি না দেখে সত্যই নিশ্চিত হওয়া অসম্ভব তবে এটি সহজেই মনে করা যায় যে এই সম্পর্কযুক্ত বৈশিষ্ট্যগুলির মধ্যে অনেকেই কেবল অকেজো ছিলেন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.