কখন সম্পর্কযুক্ত ভেরিয়েবলগুলি অপসারণ করবেন


11

ফিচার ইঞ্জিনিয়ারিংয়ের আগে বা ফিচার ইঞ্জিনিয়ারিংয়ের পরে কেউ কি দয়া করে পারস্পরিক সম্পর্কযুক্ত ভেরিয়েবলগুলি সরিয়ে দিতে সঠিক পর্যায়ে বলতে পারেন?

উত্তর:


8

আপনি সমস্ত পারস্পরিক সম্পর্কযুক্ত ভেরিয়েবলগুলি সরাতে চান না। পারস্পরিক সম্পর্ক এত শক্তিশালী হলেই তারা অতিরিক্ত তথ্য সরবরাহ করে না। এটি উভয়ই পারস্পরিক সম্পর্কের শক্তির একটি কার্য, আপনার কতটা ডেটা রয়েছে এবং পারস্পরিক সম্পর্কযুক্ত ভেরিয়েবলের মধ্যে কোনও ছোট পার্থক্য আপনাকে ফলাফল সম্পর্কে কিছু বলবে কিনা।

প্রথম দুটি আপনি কোনও মডেল করার আগে বলতে পারবেন, চূড়ান্ত নয়। সুতরাং, প্রথম দুটি বিবেচনার সংমিশ্রণের ভিত্তিতে ভেরিয়েবলগুলি মুছে ফেলা খুব যুক্তিসঙ্গত হতে পারে (যেমন অতিরিক্ত ভেরিয়েবলের নীতিগতভাবে কিছু দরকারী তথ্য থাকতে পারে, তবে আপনি পারস্পরিক সম্পর্কের শক্তি এবং কতটা ডেটা দিয়েছেন তা বলতে সক্ষম হবেন না) আপনার কাছে কোনও মডেলিং / ফিচার ইঞ্জিনিয়ারিং করার আগে। চূড়ান্ত পয়েন্টটি কেবলমাত্র কিছু মডেলিংয়ের পরে মূল্যায়ন করা যেতে পারে।


2

অদ্ভুত যে অন্য কেউ ব্যাখ্যাযোগ্যতার উল্লেখ করেনি

আপনার সাথে সম্পর্কিত সমস্তই যদি পারফরম্যান্স হয় তবে পারস্পরিক সম্পর্ক = 1 বা -1 না হওয়া পর্যন্ত দুটি পারস্পরিক সম্পর্কযুক্ত ভেরিয়েবলগুলি অপসারণ করার কোনও মানে নেই, যার ক্ষেত্রে ভেরিয়েবলগুলির মধ্যে একটি অপ্রয়োজনীয়।

তবে যদি ব্যাখ্যার বিষয়ে উদ্বিগ্ন হন তবে পারস্পরিক সম্পর্কটি হালকা হলেও, এটির মধ্যে একটি পরিবর্তনশীল অপসারণ করা বুদ্ধিমান হতে পারে। লিনিয়ার মডেলগুলির ক্ষেত্রে এটি বিশেষভাবে সত্য। লিনিয়ার রিগ্রেশন- এর একটি অনুমান হ'ল ভবিষ্যদ্বাণীকারীদের মধ্যে নিখুঁত বহু-বর্ণের অভাব।

যদি A এর সাথে B এর সাথে সম্পর্কযুক্ত থাকে তবে আপনি A বা B উভয়েরই সহগের ব্যাখ্যা করতে পারবেন না কেন তা দেখার জন্য, যখন A = ​​B (নিখুঁত সম্পর্ক) তখন চরম ঘটনাটি কল্পনা করুন। তারপরে, y = 100 * A + 50 * B মডেলটি y = 5 * A + 10 * B বা y = -2000 * A + 4000 * B এর সমান। ন্যূনতম বর্গক্ষেত্রের ক্ষুদ্রায়ন সমস্যার সম্ভাব্য সমাধানগুলিতে একাধিক ভারসাম্য রয়েছে সুতরাং আপনি "বিশ্বাস "ও করতে পারবেন না।

অন্যান্য মডেলগুলির সাথে একই জিনিস ঘটতে পারে। উদাহরণস্বরূপ, যদি A খুব B এর সাথে সম্পর্কিত হয়, তবে যদি সিদ্ধান্ত গাছ একটি খ হিসাবে দ্বিগুণ বার বেছে নেয়, তবে আপনি বলতে পারবেন না যে A বি এর চেয়ে বেশি গুরুত্বপূর্ণ, আপনি যদি মডেলটি পুনরায় প্রশিক্ষণ করেন তবে বিপরীতটি ঘটতে পারে।


2

আপনার ভিআইএফ (ভেরিয়েন্স ইনফ্লেশন ফ্যাক্টর) পরীক্ষা করা বিবেচনা করা উচিত । উচ্চতর ভিআইএফ সহ বৈশিষ্ট্যগুলি সরানোর চেষ্টা করুন। সাধারণত, অগ্রাধিকার দেওয়া হয় যে ভিআইএফ 10 এর নীচে।




আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.