আমি কি খুব প্রান্তিকর সাথে সম্পর্কিত দুটি প্রডিক্টর ভেরিয়েবল সরিয়ে ফেলতে পারি?


18

পিয়ারসনের সহসম্পর্কীয় সহগ ব্যবহার করে আমার বেশ কয়েকটি ভেরিয়েবল রয়েছে যা আমার সাথে খুব বেশি সম্পর্কযুক্ত ( এবং আমার মডেলের 2 জোড়া ভেরিয়েবলের জন্য))ρ = 0.989ρ=0.978ρ=0.989

কারণ ভেরিয়েবল কিছু অত্যন্ত সম্পর্কিত কারণ এক পরিবর্তনশীল ব্যবহার করা হয় হিসাব অন্য পরিবর্তনশীল জন্য।

উদাহরণ:

= ভি ডিB=V/3000 এবং E=VD

ρ = 0.989B এবং আছেEρ=0.989

আমার পক্ষে কি ভেরিয়েবলগুলির মধ্যে কেবল "ফেলে দেওয়া" সম্ভব?

উত্তর:


26

বি এবং ই উভয়ই ভি ভি থেকে উদ্ভূত এবং ই স্পষ্টত একে অপরের থেকে সত্যই "স্বতন্ত্র" পরিবর্তনশীল নয়। অন্তর্নিহিত ভেরিয়েবল যা এখানে সত্যই গুরুত্বপূর্ণ তা ভি। আপনার সম্ভবত এই ক্ষেত্রে বি এবং ই উভয়ই অগ্রাহ্য করা উচিত এবং কেবল ভিকে রাখা উচিত।

আরও সাধারণ পরিস্থিতিতে, যখন আপনার দুটি স্বতন্ত্র ভেরিয়েবলগুলি অত্যন্ত অত্যন্ত সম্পর্কিত lated এছাড়াও, সরল ইংরেজিতে যদি দুটি ভেরিয়েবলগুলি এত বেশি সংযুক্ত থাকে তবে তারা অবশ্যই আপনার রিগ্রেশন মডেলটিতে প্রায় একই তথ্য সরবরাহ করবে। তবে, উভয়কে অন্তর্ভুক্ত করে আপনি আসলে মডেলটিকে দুর্বল করছেন। আপনি ইনক্রিমেন্টাল তথ্য যোগ করছেন না। পরিবর্তে, আপনি শব্দ দিয়ে আপনার মডেল infused হয়। ভাল জিনিস না।

আপনার মডেলটির মধ্যে আপনি অত্যন্ত নির্ভরশীল ভেরিয়েবলগুলি রাখতে পারেন এমন একটি উপায় হ'ল রিগ্রেশনের পরিবর্তে একটি অধ্যক্ষ উপাদান উপাদান বিশ্লেষণ (পিসিএ) মডেল ব্যবহার করুন। পিসিএ মডেলগুলি বহুবিধ লাইন থেকে মুক্তি পেতে তৈরি করা হয়। ট্রেড অফটি হ'ল আপনি আপনার মডেলটির মধ্যে দুটি বা তিনটি মূল উপাদানগুলি শেষ করেন যা প্রায়শই কেবল গাণিতিক কাঠামো এবং যৌক্তিক দিক থেকে বেশ বোধগম্য। পিসিএ তাই প্রায়শই একটি পদ্ধতি হিসাবে পরিত্যাজ্য হয় যখনই আপনাকে যখন আপনার ফলাফলগুলি বাইরের দর্শকদের যেমন পরিচালনা, নিয়ন্ত্রক ইত্যাদির কাছে উপস্থাপন করতে হয় ... পিসিএ মডেলগুলি ক্রিপ্টিক ব্ল্যাক বাক্স তৈরি করে যা ব্যাখ্যা করা খুব চ্যালেঞ্জক।


1
(+1) পিসিএ ব্যাখ্যার জন্য।
স্টেফেন

1
ধন্যবাদ, এটি একটি দুর্দান্ত ব্যাখ্যা ছিল। আমি পিসিএ সম্পর্কে শুনেছি এবং পড়েছি, তবে এটি একটি "রিগ্রেশন" গ্র্যাজুয়েট কোর্সের একটি চূড়ান্ত প্রকল্পের জন্য যা আমি নিচ্ছি, এবং অধ্যাপক কেবল আমাদের এলআর ব্যবহার করতে চান। নির্বিশেষে, আমি পিসিএর ব্যাখ্যাটির সত্যই প্রশংসা করি এবং সম্ভবত এটি নিজেকে মজাদার জন্য ব্যবহার করব।
দ্য ক্লাউডলেসস্কি

3
নির্দিষ্ট পরিস্থিতিতে এই উত্তরের সুপারিশগুলি কার্যকর করবে না। উদাহরণস্বরূপ, সত্যিকারের সম্পর্কটি যদি Y = B + E = V / 3000 + V * D হয় তবে কী হবে? তারপরে ভেরিয়েবলগুলি ডেটাসেটে ভি এবং ডি এর পরিসরের কারণে উচ্চ সম্পর্কের ক্ষেত্রে ঘটে - যা (বা হতে পারে) খাঁটি দুর্ঘটনা - যখন বি বা ই এর যে কোনও একটিকে ফেলে দেওয়ার ফলে ভুল মডেলের ফলাফল ঘটবে। সংক্ষেপে, "নির্ভরতা" কোনও মডেল থেকে কিছু পরিবর্তনশীল অপসারণের বৈধ কারণ নয়; দৃ strongly়ভাবে নির্ভরশীল ভেরিয়েবলগুলি অন্তর্ভুক্ত করে অগত্যা কোনও মডেলকে "দুর্বল" করে না; পিসিএ সবসময় বাইরে যাওয়ার উপায় নয়।
হোবল

@ হুবুহু, আমি নিশ্চিত নই যে আমি আপনার মন্তব্যের সাথে একমত হই। আমি মনে করি সাধারণত "নির্ভরতা" হ'ল রিগ্রেশন মডেল থেকে কিছু ভেরিয়েবল অপসারণ করার একটি দুর্দান্ত বৈধ কারণ। অন্যথায়, আপনার প্রতিরোধের সহগগুলি নির্ভরযোগ্য হতে পারে না। যে উদাহরণ হিসাবে আপনি ব্যবহার করেন যা রিগ্রেশন জন্য সমস্যাযুক্ত হবে, তার একটি সহজ সমাধান হ'ল সম্পূর্ণ এক্সপ্রেশন (ভি / 3000 + ভি * ডি) কে একক ভেরিয়েবল হিসাবে ব্যবহার করা।
সিম্পা

3
আরও সাধারণভাবে, যদি মডেলটি বিটা 1 * (ভি / 3000) + বিটা 2 * (ভি ডি) হয় তবে আপনি এটি করতে পারবেন না: অন্য কথায়, আপনার পরামর্শ অনুমান করে আপনি সহগের মধ্যে একটি লিনিয়ার সীমাবদ্ধতা জানেন। এটি সত্য যে রিগ্রেশন সহগের তুলনায় * তুলনামূলকভাবে বড় ভিআইএফ বা স্ট্যান্ডার্ড ত্রুটি থাকতে পারে তবে পর্যাপ্ত পরিমাণে ডেটা সহ - বা ভালভাবে নির্বাচিত পর্যবেক্ষণের সাথে - অনুমানগুলি যথেষ্ট নির্ভরযোগ্য হবে। সুতরাং, আমরা সম্মত হচ্ছি যে এখানে একটি সমস্যা রয়েছে এবং আমি বিবেচনা করার জন্য বেশ কয়েকটি বিকল্পের একটি হিসাবে আপনার সমাধানের সাথে সম্মত । আমি অসম্মতি জানাই যে এটি যতটা সাধারণ এবং প্রয়োজনীয় ততটুকু যেমন আপনি এটি তৈরি করেন।
হোবার

7

মেশিন লার্নারের দৃষ্টিকোণ থেকে এখানে একটি উত্তর দেওয়া হচ্ছে, যদিও আমি আশঙ্কা করছি যে এর সত্যিকারের পরিসংখ্যানবিদরা আমাকে মারবে।

আমার পক্ষে কি ভেরিয়েবলগুলির মধ্যে কেবল "ফেলে দেওয়া" সম্ভব?

ঠিক আছে, প্রশ্নটি হল আপনি কোন ধরণের মডেলটি পূর্বাভাসের জন্য ব্যবহার করতে চান। এটি নির্ভর করে যেমন ...

  • সম্পর্কযুক্ত ভবিষ্যদ্বাণীকারীদের সাথে মডেলটি করতে পারেন? উদাহরণস্বরূপ যদিও নাইভবেইসের তাত্ত্বিকভাবে পারস্পরিক সম্পর্কযুক্ত ভেরিয়েবলগুলির সাথে সমস্যা রয়েছে, পরীক্ষাগুলি প্রমাণ করেছে যে এটি এখনও ভাল পারফর্ম করতে পারে।
  • কীভাবে মডেল পূর্বাভাসকারী ভেরিয়েবলগুলি প্রক্রিয়া করে? উদাহরণস্বরূপ, বি এবং ভি এর মধ্যে পার্থক্য সম্ভাবনার ঘনত্ব অনুমানের মধ্যে স্বাভাবিক করা হবে, সম্ভবত ডি এবং এর ভেরিয়েন্সের উপর নির্ভর করে ই এবং ভি এর জন্য একই হবে (ইতিমধ্যে উল্লাস হিসাবে বলা হয়েছে)
  • বি এবং ই এর কোন ব্যবহারের সংমিশ্রণ (একটি, কোনওটিই নয়, উভয়ই) সেরা ফলাফল প্রদান করে, যা হোল্ডআউট সেটটিতে একটি মাইন্ডফুল ক্রসওয়েডিয়েশন + পরীক্ষা দ্বারা অনুমান করা হয়?

কখনও কখনও আমরা মেশিন শিখকরা এমনকি ভবিষ্যদ্বাণীকারীদের একটি সেটের সেরা গাণিতিক সংমিশ্রণটি জেনেটিক অপ্টিমাইজেশন সম্পাদন করে।


7

বি ভি এর একটি রৈখিক রূপান্তর, ই ভি এবং ডি এর মধ্যে একটি মিথস্ক্রিয়াকে উপস্থাপন করে আপনি কি এমন কোনও মডেল নির্দিষ্ট করে বিবেচনা করেছেন যা Y = ইন্টারসেপ্ট + ভি + ডি + ভি: ডি? @ Euphoria83 এর পরামর্শ অনুসারে, সম্ভবত মনে হয় যে ডি তে সামান্য তফাত আছে, সুতরাং এটি আপনার সমস্যা সমাধান করতে পারে না; তবে এটি কমপক্ষে ভি এবং ডি এর স্বতন্ত্র অবদানকে পরিষ্কার করা উচিত। আগেই ভি এবং ডি উভয়কেই কেন্দ্র করে রাখবেন তা নিশ্চিত করুন।


4
+1: এই পরামর্শটি সমস্যার সমাধানের জন্য কেবল একটি ভাল পদ্ধতিরই নয়, এটি দেখায় যে চলকগুলি ফেলে দেওয়া সর্বদা সহজাত সমস্যা সমাধানের জন্য সঠিক (বা এমনকি একটি ভাল) পদ্ধতিরও নয়।
শুক্র

0

ডি যদি ধ্রুবক না হয়, তবে ডি এবং এর পরিবর্তনের কারণে বি এবং ই কার্যকরভাবে দুটি পৃথক পরিবর্তনশীল The উচ্চ পারস্পরিক সম্পর্ক নির্দেশ করে যে প্রশিক্ষণ ডেটা জুড়ে ডি কার্যতভাবে ধ্রুবক। যদি এটি হয় তবে আপনি বি বা ই উভয়ই বাতিল করতে পারেন


1
ডি=এন12*এন2এন2

আপনি যদি বি বা ই ত্যাগ করেন এবং সেগুলি সমতুল্য হিসাবে বিবেচনা করেন তবে আপনি স্পষ্টতই জোর দিয়ে বলছেন যে সত্যিকার অর্থেই ভি গুরুত্বপূর্ণ বিষয়। যদি এটি হয় তবে আপনি মডেলটিতে বি রাখা ভাল off কারণ এর ব্যাখ্যাটি পরিষ্কার। আরও, আপনি যদি E বজায় রাখেন তবে ডি এর আসলে সীমিত বৈকল্পিকতা রয়েছে, তবে আপনার ফলাফলের ব্যাখ্যার বৈধতা ডি এর বিভিন্ন মানের জন্য আরও সন্দেহজনক (স্বাভাবিকের চেয়ে বেশি) হতে পারে
রাসেলপিয়ের্স
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.