আমি একটি লাসো চালিয়ে যাচ্ছি যার কয়েকটি শ্রেণিবদ্ধ পরিবর্তনশীল ভবিষ্যদ্বাণী রয়েছে এবং কিছু ধারাবাহিক রয়েছে। শ্রেণীবদ্ধ ভেরিয়েবল সম্পর্কে আমার একটি প্রশ্ন আছে। আমি যে প্রথম পদক্ষেপটি বুঝতে পারি তা হ'ল তাদের প্রত্যেককে ডামিতে বিভক্ত করা, ন্যায্য দণ্ডের জন্য তাদের মানিক করা এবং তারপরে পুনরায় চাপ দেওয়া। ডামি ভেরিয়েবলের চিকিত্সার জন্য বেশ কয়েকটি বিকল্প দেখা দেয়:
একটি রেফারেন্স স্তর হিসাবে রেখে প্রতিটি ফ্যাক্টরের জন্য একটি ডামি বাদে সমস্ত অন্তর্ভুক্ত করুন level একটি ডামি সহগের ব্যাখ্যা বাদ দেওয়া "রেফারেন্স" বিভাগের সাথে সম্পর্কিত। ইন্টারসেপ্ট এখন রেফারেন্স বিভাগের গড় প্রতিক্রিয়া।
প্রতিটি ফ্যাক্টারে ভেরিয়েবলগুলি গ্রুপ করুন যাতে সেগুলি হয় সমস্ত বাদ হয় বা সমস্ত-বাদে অন্তর্ভুক্ত থাকে। আমি বিশ্বাস করি যে এটিই গ্লেন_বি এখানে পরামর্শ দিচ্ছেন :
সাধারণত, হ্যাঁ, আপনি সমস্ত কারণগুলি একসাথে রাখেন। বেশ কয়েকটি আর প্যাকেজ রয়েছে যা গ্ল্যামনেট সহ এটি করতে পারে
@ অ্যান্ড্রু এম এর পরামর্শ অনুসারে সমস্ত স্তরকে অন্তর্ভুক্ত করুন :
আপনি ডিফল্ট কনট্রাস্ট ফাংশনও পরিবর্তন করতে চাইতে পারেন, যা ডিফল্টরূপে প্রতিটি ফ্যাক্টরের একটি স্তর (চিকিত্সা কোডিং) রেখে দেয়। তবে লাসো পেনাল্টির কারণে এটি শনাক্তকরণের জন্য আর প্রয়োজন হয় না এবং বাস্তবে নির্বাচিত ভেরিয়েবলগুলির ব্যাখ্যা আরও জটিল করে তোলে। এটি করতে, সেট করুন
contr.Dummy <- function(contrasts, ...){ conT <- contr.treatment(contrasts=FALSE, ...) conT } options(contrasts=c(ordered='contr.Dummy', unordered='contr.Dummy'))
এখন, কোনও ফ্যাক্টরের যে কোনও স্তর নির্বাচন করা হোক না কেন, আপনি এটি বাদ দিয়ে সমস্ত বাদ দেওয়া স্তরগুলির তুলনায় এই নির্দিষ্ট স্তরগুলিকে বিবেচনা করার পরামর্শ হিসাবে ভাবতে পারেন। মেশিন লার্নিংয়ে আমি এই কোডিংটিকে এক-হট এনকোডিং হিসাবে উল্লেখ করেছি।
প্রশ্নাবলী:
- এই প্রতিটি পদ্ধতির অধীনে ইন্টারসেপ্ট এবং সহগের ব্যাখ্যা কী ?
- এর মধ্যে একটি নির্বাচন করার ক্ষেত্রে কী বিবেচনা জড়িত?
- আমরা কি ডামি সহগগুলি আন-স্কেল করি এবং তারপরে এগুলি বন্ধ থেকে চালু করার পরিবর্তনের হিসাবে ব্যাখ্যা করি?