আমি লাসো এবং রিজ উভয়ের সাথেই একটি রিগ্রেশন মডেল চালাচ্ছি (0-5 এর মধ্যে একটি পৃথক ফলাফলের পরিবর্তনশীল ভবিষ্যদ্বাণী করতে)। মডেলটি চালানোর আগে, আমি বৈশিষ্ট্যটি সেটটি 250 থেকে 25 এ হ্রাস করার SelectKBest
পদ্ধতি ব্যবহার করি । প্রাথমিক বৈশিষ্ট্য নির্বাচন ছাড়া লাসো এবং রিজ উভয়ই যথাযথ স্কোরকে কমিয়ে দেয় [যা ছোট নমুনার আকারের কারণে হতে পারে 600০০]] এছাড়াও লক্ষ করুন যে কয়েকটি বৈশিষ্ট্য পারস্পরিক সম্পর্কযুক্ত।scikit-learn
মডেলটি চালানোর পরে, আমি পর্যবেক্ষণ করেছি যে পূর্বাভাসের সঠিকতা লাসো এবং রিজের সাথে প্রায় একই রকম। যাইহোক, আমি যখন সহগের সম্পূর্ণরূপে মান দ্বারা অর্ডার করার পরে প্রথম 10 টি বৈশিষ্ট্য পরীক্ষা করি, তখন আমি দেখতে পাই যে সেখানে সর্বাধিক% 50 ওভারল্যাপ রয়েছে।
এটি হ'ল প্রতিটি পদ্ধতি অনুসারে বৈশিষ্ট্যের বিভিন্ন গুরুত্ব দেওয়া হয়েছিল, আমি যে মডেলটি পছন্দ করি তার উপর আমার সম্পূর্ণ ভিন্ন ব্যাখ্যা থাকতে পারে।
সাধারণত, বৈশিষ্ট্যগুলি কোনও ওয়েবসাইটে ব্যবহারকারীর আচরণের কিছু দিক উপস্থাপন করে। অতএব, আমি শক্তিশালী ভবিষ্যদ্বাণীমূলক দক্ষতা বনাম দুর্বল বৈশিষ্ট্যগুলি (ব্যবহারকারীর আচরণ) সহ বৈশিষ্ট্যগুলি (ব্যবহারকারীর আচরণ) হাইলাইট করে ফলাফলগুলি ব্যাখ্যা করতে চাই। তবে এই মুহুর্তে কীভাবে এগিয়ে যেতে হবে তা আমার জানা নেই। মডেলটির ব্যাখ্যা দেওয়ার জন্য আমার কীভাবে যোগাযোগ করা উচিত? উদাহরণস্বরূপ, উভয়কে একত্রিত করা এবং ওভারল্যাপিং একটিকে হাইলাইট করা উচিত, বা লাসোর সাথে আরও বেশি ব্যাখ্যা করার কারণেই আমার সাথে যাওয়া উচিত?
Normally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .