মাল্টিকোলাইনারিটি কি শ্রেণিবদ্ধ ভেরিয়েবলগুলিতে অন্তর্ভুক্ত?


10

আমি লক্ষ্য করেছি যে মাল্টিভারিয়েট রিগ্রেশন মডেলটির সাথে সংলাপ করার সময় একটি ছোট তবে লক্ষণীয় মাল্টিকোল্লাইনারিটি প্রভাব ছিল, যেমন ভেরিয়েশন মুদ্রার কারণগুলি দ্বারা পরিমাপ করা হয় , একটি শ্রেণিবদ্ধ ভেরিয়েবলের ক্যাটাগরির মধ্যে (অবশ্যই রেফারেন্স বিভাগ বাদে)।

উদাহরণস্বরূপ, বলুন যে আমাদের কাছে অবিচ্ছিন্ন ভেরিয়েবল y এবং একটি নামমাত্র শ্রেণীবদ্ধ ভেরিয়েবল এক্স সহ একটি ডেটাসেট রয়েছে যার পারস্পরিক একচেটিয়া মান সম্ভব k আমরা সম্ভাব্য মানগুলিকে 0/1 ডামি ভেরিয়েবল হিসাবে কোড । তারপর আমরা একটি রিগ্রেশন মডেল চালানোর । ডামি ভেরিয়েবলের জন্য ভিআইএফ স্কোরগুলি শূন্য-র বাইরে বেরিয়ে আসে। প্রকৃতপক্ষে, বিভাগগুলির সংখ্যা বাড়ার সাথে সাথে ভিআইএফগুলিও বৃদ্ধি পায়। ডামি ভেরিয়েবলগুলি কেন্দ্র করে ভিআইএফ পরিবর্তন করতে দেখা যায় না।এক্স 1 , এক্স 2 , , এক্স কে ওয়াই = বি 0 + বি 1 এক্স 1 + বি 2 এক্স 2 + + বি কে - 1 এক্স কে - 1 কে - 1kx1,x2,,xky=b0+b1x1+b2x2++bk1xk1k1

স্বজ্ঞাত ব্যাখ্যাটি বলে মনে হয় যে শ্রেণিবদ্ধ ভেরিয়েবলের মধ্যে বিভাগগুলির পারস্পরিক একচেটিয়া শর্ত এই সামান্য বহুবিধ লাইন ঘটায়। এটি কি একটি তুচ্ছ আবিষ্কার বা শ্রেণীবদ্ধ ভেরিয়েবলগুলি সহ রিগ্রেশন মডেলগুলি তৈরি করার সময় এটি বিবেচনার বিষয়?

উত্তর:


8

আমি ঠিক এই ঘটনাটি পুনরুত্পাদন করতে পারি না, তবে আমি প্রমাণ করতে পারি যে বিভাগগুলির সংখ্যা বাড়ার সাথে সাথে ভিআইএফ প্রয়োজনীয়ভাবে বৃদ্ধি পায় না

অন্তর্দৃষ্টি সহজ: শ্রেণীবদ্ধ পরিবর্তনশীল উপযুক্ত পরীক্ষামূলক ডিজাইন দ্বারা orthogonal করা যেতে পারে। অতএব, সাধারণভাবে সংখ্যা এবং বহুবিচিত্রের মধ্যে কোনও সম্পর্ক থাকতে হবে না

এখানে Rবিভাগের উল্লেখযোগ্য সংখ্যক (দুটি স্বতন্ত্র ভেরিয়েবলের জন্য) এবং প্রতিটি বিভাগের জন্য উল্লেখযোগ্য পরিমাণে প্রতিরূপের নির্দিষ্ট পরিমাণ সহ শ্রেণীবদ্ধ ডেটাসেটগুলি তৈরি করার জন্য এখানে একটি ফাংশন রয়েছে। এটি একটি ভারসাম্যপূর্ণ অধ্যয়নকে প্রতিনিধিত্ব করে যেখানে বিভাগের প্রতিটি সংমিশ্রণ সমান সংখ্যকবার, :n

trial <- function(n, k1=2, k2=2) {
  df <- expand.grid(1:k1, 1:k2)
  df <- do.call(rbind, lapply(1:n, function(i) df))
  df$y <- rnorm(k1*k2*n)
  fit <- lm(y ~ Var1+Var2, data=df)
  vif(fit)
}

এটি প্রয়োগ করে, আমি খুঁজে পেয়েছি ভিআইএফগুলি সর্বদা তাদের সর্বনিম্ন সম্ভাব্য মানগুলিতে থাকে , ব্যালেন্সিং প্রতিফলিত করে (যা ডিজাইনের ম্যাট্রিক্সে অরথোগোনাল কলামগুলিতে অনুবাদ করে)। কিছু উদাহরণ:1

sapply(1:5, trial) # Two binary categories, 1-5 replicates per combination
sapply(1:5, function(i) trial(i, 10, 3)) # 30 categories, 1-5 replicates

এটি পরামর্শ দেয় যে নকশায় ক্রমবর্ধমান ভারসাম্যহীনতার কারণে বহুবিধ লাইনটি বর্ধমান হতে পারে । এটি পরীক্ষা করতে, লাইনটি প্রবেশ করান

  df <- subset(df, subset=(y < 0))

সামনে fitলাইন trial। এটি এলোমেলোভাবে অর্ধেক ডেটা অপসারণ করে। পুনরায় চলমান

sapply(1:5, function(i) trial(i, 10, 3))

দেখায় যে ভিআইএফগুলি আর সমান হয় না (তবে এগুলি এলোমেলোভাবেই থাকে)। তারা এখনও আরও বিভাগের সাথে বৃদ্ধি করে না: তুলনামূলক মান উত্পন্ন করে।1sapply(1:5, function(i) trial(i, 10, 10))


2

আপনি বাধ্যতা যে আপনি দেখতে পারেন MULTINOMIAL ডিস্ট্রিবিউশন সহজাত, যথা যে এক এবং একমাত্র আছে গুলি 1 হতে পারে এবং বাকি সব 0. হবে যাতে আপনি রৈখিক বাধ্যতা আছে । তার মানে যেখানে যোগফল উপরে নেওয়া হবে । এটি আপনার সহিত মিলিতরূপ প্রভাব। এটি সম্পর্কে অস্বাভাবিক বা বিরক্তিকর কিছুই নেই।xixi=1x1=1xii1


এই পরিস্থিতিটির সাথে বহুজাতিক বিতরণগুলির কী আছে তা আমি বুঝতে পারি না। আপনি ব্যাখ্যা করতে পারেন?
হুশহুদি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.