লাসোর জন্য সূচক / বাইনারি / ডামি ভবিষ্যদ্বাণী পুনরুদ্ধার করবেন কিনা whether


30

লাসো (এবং অন্যান্য মডেল নির্বাচন পদ্ধতি) এর জন্য ভবিষ্যদ্বাণীকারীদের পুনরুদ্ধার করা অত্যন্ত গুরুত্বপূর্ণ। আমি যে সাধারণ সুপারিশটি অনুসরণ করি তা হ'ল অবিচ্ছিন্ন ভেরিয়েবলের জন্য 0 গড়, 1 স্ট্যান্ডার্ড বিচ্যুতি নরমালাইজেশন ব্যবহার করা। তবে ডমি নিয়ে কী করার আছে?

উদাহরণস্বরূপ , একই (দুর্দান্ত) গ্রীষ্মের স্কুল থেকে কিছু প্রয়োগিত উদাহরণ যা আমি ডেস্কের সাথে তুলনীয় হতে পারে 0 থেকে 1 এর মধ্যে অবিচ্ছিন্ন ভেরিয়েবলগুলিকে পুনরায় বিক্রয় করি (যদিও বহিরাগতদের সাথে দুর্দান্ত নয়)। তবে এটি গ্যারান্টি দেয় না যে সহগগুলি একই মাত্রার আকারের হওয়া উচিত, এবং এভাবে একইভাবে শাস্তি দেওয়া হয়েছিল, উদ্ধারের মূল কারণ, না?


2
সংক্ষিপ্ত উত্তর - না, না rescale নকলগুলির
অ্যাফিন

4
সম্পর্কে এই
julieth

@ জুলিয়েত, অনেক ধন্যবাদ, আপনি যদি এর পর থেকে কিছু উত্তর পেয়ে থাকেন তবে আমাকে জানান।
লাসল্লি

উত্তর:


27

তিবশিরানী (কক্স মডেলে বৈকল্পিক নির্বাচনের জন্য লাসো মেথড , মেডিসিনে স্ট্যাটিস্টিকস, ভোল। ১,, ৩৮৫-৩৯৯ (১৯৯) )), যিনি আক্ষরিকভাবে নিয়মিতকরণ পদ্ধতিতে বইটি লিখেছিলেন, আপনার ডামিগুলিকে মানিক করা উচিত। যাইহোক, আপনি তারপর আপনার সহগের সরল ব্যাখ্যা ব্যাখ্যা হারাবেন। যদি আপনি এটি না করেন তবে আপনার ভেরিয়েবলগুলি সমকক্ষ প্লেয়িং ফিল্ডে নেই। আপনি মূলত আপনার অবিচ্ছিন্ন ভেরিয়েবলের পক্ষে পক্ষে স্কেলগুলি টিপছেন (খুব সম্ভবত)। সুতরাং, যদি আপনার প্রাথমিক লক্ষ্যটি মডেল নির্বাচন হয় তবে এটি একটি গুরুতর ত্রুটি। তবে আপনি যদি ব্যাখ্যায় বেশি আগ্রহী হন তবে সম্ভবত এটি সেরা ধারণা নয়।

সুপারিশটি 394 পৃষ্ঠায় রয়েছে:

লাসো পদ্ধতিতে রেজিস্ট্রারদের প্রাথমিক মানককরণ প্রয়োজন, যাতে দণ্ডনীয় স্কিমটি সমস্ত রেজিস্ট্রারদের পক্ষে ন্যায্য। শ্রেণিবদ্ধ রেজিস্ট্রারগুলির জন্য, একটি ডামি ভেরিয়েবলগুলি সহ রেজিস্ট্রারকে কোড করে এবং তারপরে ডামি ভেরিয়েবলগুলি মানক করে। একটি রেফারির দ্বারা নির্দেশিত হিসাবে, তবে, এই স্কিমের ধারাবাহিক এবং শ্রেণিবদ্ধ ভেরিয়েবলের মধ্যে আপেক্ষিক স্কেলিং কিছুটা স্বেচ্ছাসেবী হতে পারে।


3
আপনি কি সুনির্দিষ্ট রেফারেন্স দিতে পারেন যেখানে তিবশিরানী ডমিগুলিকে মানিক করার পরামর্শ দেয়।
seanv507

@ seanv507 "... একটিতে ডমি ভেরিয়েবলগুলির সাথে নিবন্ধকদের কোড করা হয় এবং তারপরে ডামি ভেরিয়েবলগুলি মানক করে "। আমি মনে করি ক্রোকার্টের ব্যাখ্যাটি সঠিক: সাধারণভাবে আপনি চান ডামি সহ সমস্ত ভবিষ্যদ্বাণীকে শাস্তির ন্যায়বিচারের জন্য একই স্কেল এবং তারতম্য থাকতে হবে।
রবার্ট কুব্রিক

1
@ রবার্টকুব্রিক আমি একমত নই নিয়মিতকরণের মূল কারণটি হ'ল ছোট পরিবর্তনগুলির ক্ষুদ্র প্রভাব থাকতে হবে। সুতরাং আদর্শ ক্ষেত্রে হ'ল আপনার সমস্ত ভেরিয়েবলগুলির একটি প্রাকৃতিক শারীরিক স্কেল আপনার নির্ভরশীল ভেরিয়েবলটি তৈরি করে এবং আপনি এগুলি স্বাভাবিক করেন না। সাধারণত আমরা সঠিক স্কেল জানি না, তাই আমরা সাধারণীকরণ অবলম্বন করি। তবে শ্রেণিবদ্ধ ভেরিয়েবলগুলির এমন প্রাকৃতিক স্কেল রয়েছে, সম্ভবত তারা 0 বা 1 হওয়ার সম্ভাবনা: আমি যুক্তি দিয়ে বলব যে একটি চলক যা বেশিরভাগ সময় 0 হয়, 0/1 এর মধ্যে ফ্লপ হওয়া ভেরিয়েবলের চেয়ে কম গুরুত্বপূর্ণ। পরিবর্তে জেফের উত্তর উপযুক্ত মনে হয়।
seanv507

8

অ্যান্ড্রু গেলম্যানের ব্লগ পোস্ট, কখন রিগ্রেশন ইনপুটকে মানিক করে তুলবে এবং কখন তাদের একা ছেড়ে দেওয়া যায় , তাও দেখার মতো। বিশেষত এই অংশটি প্রাসঙ্গিক:

কোনও মডেলের মধ্যে বিভিন্ন পূর্বাভাসীর জন্য সহগের তুলনা করার জন্য, মানককরণটি হ'ল। (যদিও আমি বাইনারি ইনপুটগুলিকে মানসম্মত করি না I আমি সেগুলিকে 0/1 হিসাবে কোড করি এবং তারপরে আমি অন্যান্য সমস্ত সংখ্যার ইনপুটগুলিকে দুটি স্ট্যান্ডার্ড বিচ্যুতি দ্বারা বিভক্ত করে প্রমিত করি, সুতরাং এগুলি 0/1 ভেরিয়েবলের মতো প্রায় একই স্কেলে রাখি)


1
এবং যখন তিনি "বাইনারি ইনপুটগুলিকে মানসম্মত করবেন না" বলছেন, তখন তার অর্থ ভেরিয়েবলগুলির এক-হট গ্রুপ, অর্থাত্ শ্রেণিবদ্ধ ভেরিয়েবলগুলির জন্য কোনও ডামি?
smci

2
পি(1-পি)পি=0.50.25

x -> x / 2σ


3

এটি একটি মন্তব্য বেশি, কিন্তু খুব দীর্ঘ। লাসোর (এবং বন্ধুদের) সর্বাধিক ব্যবহৃত সফ্টওয়্যারগুলির মধ্যে একটি হ'ল আর glmnet। সহায়তা পৃষ্ঠা থেকে, মুদ্রিত ?glmnet:

মানীয়করণ: মডেল ক্রম ফিটিং করার আগে এক্স পরিবর্তনশীল মানককরণের জন্য যৌক্তিক পতাকা। সহগগুলি সর্বদা আসল স্কেলে ফিরে আসে। ডিফল্ট হ'ল মানক = সত্য "। যদি ভেরিয়েবলগুলি ইতিমধ্যে একই ইউনিটে থাকে তবে আপনি মানক করতে চান না। 'পরিবার = "গাউসিয়ান" "এর সাথে y মানকতার জন্য নীচে বিশদটি দেখুন।

এক্স

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.