লাসোতে কীভাবে শ্রেণিবদ্ধ ভবিষ্যদ্বাণীদের আচরণ করা যায়


17

আমি একটি লাসো চালিয়ে যাচ্ছি যার কয়েকটি শ্রেণিবদ্ধ পরিবর্তনশীল ভবিষ্যদ্বাণী রয়েছে এবং কিছু ধারাবাহিক রয়েছে। শ্রেণীবদ্ধ ভেরিয়েবল সম্পর্কে আমার একটি প্রশ্ন আছে। আমি যে প্রথম পদক্ষেপটি বুঝতে পারি তা হ'ল তাদের প্রত্যেককে ডামিতে বিভক্ত করা, ন্যায্য দণ্ডের জন্য তাদের মানিক করা এবং তারপরে পুনরায় চাপ দেওয়া। ডামি ভেরিয়েবলের চিকিত্সার জন্য বেশ কয়েকটি বিকল্প দেখা দেয়:

  1. একটি রেফারেন্স স্তর হিসাবে রেখে প্রতিটি ফ্যাক্টরের জন্য একটি ডামি বাদে সমস্ত অন্তর্ভুক্ত করুন level একটি ডামি সহগের ব্যাখ্যা বাদ দেওয়া "রেফারেন্স" বিভাগের সাথে সম্পর্কিত। ইন্টারসেপ্ট এখন রেফারেন্স বিভাগের গড় প্রতিক্রিয়া।

  2. প্রতিটি ফ্যাক্টারে ভেরিয়েবলগুলি গ্রুপ করুন যাতে সেগুলি হয় সমস্ত বাদ হয় বা সমস্ত-বাদে অন্তর্ভুক্ত থাকে। আমি বিশ্বাস করি যে এটিই গ্লেন_বি এখানে পরামর্শ দিচ্ছেন :

    সাধারণত, হ্যাঁ, আপনি সমস্ত কারণগুলি একসাথে রাখেন। বেশ কয়েকটি আর প্যাকেজ রয়েছে যা গ্ল্যামনেট সহ এটি করতে পারে

  3. @ অ্যান্ড্রু এম এর পরামর্শ অনুসারে সমস্ত স্তরকে অন্তর্ভুক্ত করুন :

    আপনি ডিফল্ট কনট্রাস্ট ফাংশনও পরিবর্তন করতে চাইতে পারেন, যা ডিফল্টরূপে প্রতিটি ফ্যাক্টরের একটি স্তর (চিকিত্সা কোডিং) রেখে দেয়। তবে লাসো পেনাল্টির কারণে এটি শনাক্তকরণের জন্য আর প্রয়োজন হয় না এবং বাস্তবে নির্বাচিত ভেরিয়েবলগুলির ব্যাখ্যা আরও জটিল করে তোলে। এটি করতে, সেট করুন

    contr.Dummy <- function(contrasts, ...){
       conT <- contr.treatment(contrasts=FALSE, ...)
       conT
    }
    options(contrasts=c(ordered='contr.Dummy', unordered='contr.Dummy'))
    

    এখন, কোনও ফ্যাক্টরের যে কোনও স্তর নির্বাচন করা হোক না কেন, আপনি এটি বাদ দিয়ে সমস্ত বাদ দেওয়া স্তরগুলির তুলনায় এই নির্দিষ্ট স্তরগুলিকে বিবেচনা করার পরামর্শ হিসাবে ভাবতে পারেন। মেশিন লার্নিংয়ে আমি এই কোডিংটিকে এক-হট এনকোডিং হিসাবে উল্লেখ করেছি।

প্রশ্নাবলী:

  1. এই প্রতিটি পদ্ধতির অধীনে ইন্টারসেপ্ট এবং সহগের ব্যাখ্যা কী ?
  2. এর মধ্যে একটি নির্বাচন করার ক্ষেত্রে কী বিবেচনা জড়িত?
  3. আমরা কি ডামি সহগগুলি আন-স্কেল করি এবং তারপরে এগুলি বন্ধ থেকে চালু করার পরিবর্তনের হিসাবে ব্যাখ্যা করি?

উত্তর:


6

β

আপনার নির্দিষ্ট প্রশ্নের উত্তরে:

(1) লাসো সহগের জন্য একটি অনুমান পদ্ধতি , তবে সহগগুলি নিজেরাই আপনার প্রতিরোধের জন্য প্রাথমিক মডেল সমীকরণ দ্বারা সংজ্ঞায়িত হয়। যেমন, সহগের ব্যাখ্যাটি একটি স্ট্যান্ডার্ড লিনিয়ার রিগ্রেশন-এর মতো; বর্ণনামূলক ভেরিয়েবলের পরিবর্তনের কারণে তারা প্রত্যাশিত প্রতিক্রিয়ার পরিবর্তনের হারের প্রতিনিধিত্ব করে।

(২) উপরোক্ত সাহিত্যগুলি ভেরিয়েবলগুলি গোষ্ঠীকরণের প্রস্তাব দেয় তবে একটি রেফারেন্স বিভাগ রাখে। এটি স্পষ্টতই ধরে নিয়েছে যে আপনি এমন একটি মডেলের সাথে শ্রেণিবদ্ধ ভেরিয়েবলের উপস্থিতি তুলনা করছেন যা এটিকে সরিয়ে ফেলেছে তবে তারপরেও একটি বাধা শব্দ রয়েছে।

(3) উপরে বর্ণিত হিসাবে, অনুমানের পদ্ধতিটি সহগের ব্যাখ্যাগুলিকে প্রভাবিত করে না, যা মডেল বিবৃতি দ্বারা সেট করা হয়।


1
হাটসেপসুট: যদি আপনি এই উত্তরটি সহায়ক বলে মনে করেন তবে দয়া করে উর্ধ্বকরণ এবং / অথবা এটি গ্রহণ করার বিষয়টি বিবেচনা করুন। যদি তা না হয় তবে সম্ভবত আপনি কী অনুপস্থিত তা ইঙ্গিত করতে পারতেন?
এস। কোলাসা - মনিকা

@StephanKolassa সম্পন্ন
হ্যাটসেপসাট
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.