কোনও মডেল তৈরির জন্য রেগ্রেশন সহগের গড় গড় নিয়ে কোনও তাত্ত্বিক সমস্যা আছে?


13

আমি একটি রিগ্রেশন মডেল তৈরি করতে চাই যা গড়ে ওঠা একাধিক ওএলএস মডেল, প্রতিটি সম্পূর্ণ ডেটার সাবসেটের উপর ভিত্তি করে। এর পেছনের ধারণাটি এই কাগজের উপর ভিত্তি করে । আমি কে ভাঁজগুলি তৈরি করি এবং কে ওএলএস মডেলগুলি তৈরি করি, প্রতিটি ফোল্ডের কোনও ছাড়াই ডেটাতে। আমি তারপরে চূড়ান্ত মডেলটি পেতে রেগ্রেশন সহগের গড়।

এটি আমাকে এলোমেলোভাবে বনভূমির মতো কিছু হিসাবে আঘাত করে, যেখানে একাধিক রিগ্রেশন গাছগুলি নির্মিত এবং গড় হয়। তবে, গড় ওএলএস মডেলের পারফরম্যান্স পুরো ডেটাতে কেবল একটি ওএলএস মডেল তৈরির চেয়ে খারাপ বলে মনে হয়। আমার প্রশ্ন হ'ল: একাধিক ওএলএস মডেলের গড় ভুল বা অবাঞ্ছিত হওয়ার কোন তাত্ত্বিক কারণ আছে? আমরা কী একাধিক ওএলএস মডেলের গড়পড়তা কমিয়ে আনতে আশা করতে পারি? নীচে একটি আর উদাহরণ দেওয়া আছে।

#Load and prepare data
library(MASS)
data(Boston)
trn <- Boston[1:400,]
tst <- Boston[401:nrow(Boston),]

#Create function to build k averaging OLS model
lmave <- function(formula, data, k, ...){
  lmall <- lm(formula, data, ...)
  folds <- cut(seq(1, nrow(data)), breaks=k, labels=FALSE)
  for(i in 1:k){
    tstIdx <- which(folds==i, arr.ind = TRUE)
    tst <- data[tstIdx, ]
    trn <- data[-tstIdx, ]
    assign(paste0('lm', i), lm(formula, data = trn, ...))
  }

  coefs <- data.frame(lm1=numeric(length(lm1$coefficients)))
  for(i in 1:k){
    coefs[, paste0('lm', i)] <- get(paste0('lm', i))$coefficients
  }
  lmnames <- names(lmall$coefficients)
  lmall$coefficients <- rowMeans(coefs)
  names(lmall$coefficients) <- lmnames
  lmall$fitted.values <- predict(lmall, data)
  target <- trimws(gsub('~.*$', '', formula))
  lmall$residuals <- data[, target] - lmall$fitted.values

  return(lmall)
}

#Build OLS model on all trn data
olsfit <- lm(medv ~ ., data=trn)

#Build model averaging five OLS 
olsavefit <- lmave('medv ~ .', data=trn, k=5)

#Build random forest model
library(randomForest)
set.seed(10)
rffit <- randomForest(medv ~ ., data=trn)

#Get RMSE of predicted fits on tst
library(Metrics)
rmse(tst$medv, predict(olsfit, tst))
[1] 6.155792
rmse(tst$medv, predict(olsavefit, tst))
[1] 7.661 ##Performs worse than olsfit and rffit
rmse(tst$medv, predict(rffit, tst))
[1] 4.259403

2
ব্যবহার করে আপনি চেষ্টা করতে পারে মধ্যমা সহগ মূল্যবোধ, বরং গড় সহগ মান। আমি দেখেছি যে এই কৌশলটি কখনও কখনও আরও ভাল ফলাফল দিতে পারে।
জেমস ফিলিপস

এটি সম্ভবত আপনাকে কোনও পারফরম্যান্স বাড়িয়ে দেবে না বা ফিটিং ওভারকে কমিয়ে দেবে না, তবে এতে অন্যান্য দরকারী অ্যাপ্লিকেশন রয়েছে। এই অধ্যায়টি তার প্রবাহিত সময় সিরিজের ডেটাগুলির জন্য সঠিক ট্রেন্ডটি নির্বাচন করতে ব্যবহার করে youtube.com/watch?v=0zpg9ODE6Ww&index=64&list=WL
জোশ

উত্তর:


14

ওভারফিটিংয়ের ক্ষেত্রে - লিনিয়ার মডেলগুলি একইভাবে ওভারফিটিংয়ের প্রবণ নয়, উদাহরণস্বরূপ, গ্রেডিয়েন্ট বুস্টিং মেশিনগুলি। রৈখিকতা প্রয়োগকারী এটি দেখতে পায়। আপনার যদি খুব কম সংখ্যক বিদেশী আছেন যা আপনার ওএলএসের রিগ্রেশন লাইনটি যেখানেই হওয়া উচিত সেখানে থেকে খুব দূরে টানেন, আপনার পদ্ধতির ক্ষতি হতে পারে - সামান্য - ক্ষতি কমিয়ে দিতে পারে, তবে সেই সমস্যাটির সাথে সম্পর্কিত পরিস্থিতিতে আরও উচ্চতর পন্থা রয়েছে খুব অল্প সংখ্যক বিদেশী, উদাহরণস্বরূপ, শক্তিশালী রৈখিক রিগ্রেশন, বা কেবল ডেটা প্লট করা, সনাক্তকরণ এবং তারপরে বহিরাগতদের অপসারণ (ধরে নিচ্ছেন যে তারা প্রকৃতপক্ষে ডেটা উত্পন্নকরণের প্রক্রিয়াটির প্রতিনিধি নন যার ধারনাগুলি আপনি অনুমান করতে আগ্রহী।)


"আউটফর্ম" দ্বারা আপনি কী বোঝাতে চেয়েছেন এটির সহগের আরও ভাল অনুমান হবে বা বোর্ডের কেফোল্ড পদ্ধতির চেয়ে এটি আরও ভাল হবে (আউটলিয়ারগুলি বাদ দিয়ে, যেমন আপনি উল্লেখ করেছেন)?
আরশ হাওয়েদা

কে-ফোল্ড পদ্ধতির তুলনায় এর অবশিষ্টাংশের কম এমএসই থাকবে, যা বোঝাচ্ছে, মডেলের কার্যকরী ফর্মটি সঠিক বলে ধরে নিচ্ছেন, গড়ে এটির সহগের আরও ভাল অনুমান হবে এবং কে-ভাঁজ পদ্ধতির চেয়ে ভাল হবে বোর্ড - যদি না আপনার নির্দিষ্ট সমস্যাটি নির্দেশ করে যে কোনও আলাদা মানদণ্ড, উদাহরণস্বরূপ, নিখুঁত ত্রুটি, এমএসইতে পছন্দ করা উচিত।
জবোম্যান

1

বুটস্ট্র্যাপ চালানোর বিষয়ে কী? অনিয়ন্ত্রিত এলোমেলো নমুনা (প্রতিস্থাপনের সাথে নমুনা) ব্যবহার করে 100% স্যাম্পলিং হার সহ 100-1000 প্রতিলিপি নমুনা তৈরি করুন। প্রতিলিপি দ্বারা মডেলগুলি চালান এবং প্রতিটি প্রতিরোধের সহগের জন্য মিডিয়ান পান। বা গড় চেষ্টা করুন। লক্ষণগুলি পরিবর্তিত হয় এবং কী পরিমাণে বন্টন মূল্যবোধে তা দেখে প্রতিটি সহগের বিতরণও দেখুন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.