জিবিএম প্যাকেজে আউটপুট পদগুলির অর্থ?


15

আমি শ্রেণিবিন্যাসের জন্য জিবিএম প্যাকেজটি ব্যবহার করছি। যেমনটি প্রত্যাশিত, ফলাফল ভাল। তবে আমি শ্রেণিবদ্ধের আউটপুট বোঝার চেষ্টা করছি। আউটপুট পাঁচটি পদ আছে।

`Iter   TrainDeviance   ValidDeviance   StepSize   Improve`

যে কেউ প্রতিটি শব্দটির অর্থ, বিশেষত উন্নতির অর্থ ব্যাখ্যা করতে পারে ।

উত্তর:


11

আপনার খুঁজে পাওয়া উচিত যে এটি ভিত্তিক ফাংশনগুলির সংখ্যা - অর্থাত্ পুনরাবৃত্তি - সংযোজনীয় মডেলের গাছের সংখ্যা নির্ধারণের জন্য সেরা মান নির্ধারণের সাথে সম্পর্কিত। এগুলি ঠিক কী তা বর্ণনা করে আমি ডকুমেন্টেশন খুঁজে পাই না তবে এখানে আমার সেরা অনুমান এবং অন্য কেউ মন্তব্য করতে পারে।

ম্যানুয়াল থেকে নিম্নলিখিতগুলি নিন:

library(gbm)
# A least squares regression example
# create some data
N <- 1000
X1 <- runif(N)
X2 <- 2*runif(N)

X3 <- ordered(sample(letters[1:4],N,replace=TRUE),levels=letters[4:1])
X4 <- factor(sample(letters[1:6],N,replace=TRUE))
X5 <- factor(sample(letters[1:3],N,replace=TRUE))
X6 <- 3*runif(N)
mu <- c(-1,0,1,2)[as.numeric(X3)]
SNR <- 10 # signal-to-noise ratio
Y <- X1**1.5 + 2 * (X2**.5) + mu
sigma <- sqrt(var(Y)/SNR)
Y <- Y + rnorm(N,0,sigma)
# introduce some missing values
X1[sample(1:N,size=500)] <- NA
X4[sample(1:N,size=300)] <- NA
data <- data.frame(Y=Y,X1=X1,X2=X2,X3=X3,X4=X4,X5=X5,X6=X6)
# fit initial model
gbm1 <- gbm(Y~X1+X2+X3+X4+X5+X6, # formula
data=data, # dataset
var.monotone=c(0,0,0,0,0,0), # -1: monotone decrease,
# +1: monotone increase,
# 0: no monotone restrictions
distribution="gaussian", # bernoulli, adaboost, gaussian,
# poisson, coxph, and quantile available
n.trees=3000, # number of trees
shrinkage=0.005, # shrinkage or learning rate,
# 0.001 to 0.1 usually work
interaction.depth=3, # 1: additive model, 2: two-way interactions, etc.
bag.fraction = 0.5, # subsampling fraction, 0.5 is probably best
train.fraction = 0.5, # fraction of data for training,
# first train.fraction*N used for training
n.minobsinnode = 10, # minimum total weight needed in each node
cv.folds = 5, # do 5-fold cross-validation
keep.data=TRUE, # keep a copy of the dataset with the object
verbose=TRUE) # print out progress

পুনরাবৃত্তির সংখ্যা ( Iter) 3000, যা নির্মাণের জন্য নির্বাচিত গাছের সংখ্যা (1 থেকে 3000 যদিও প্রত্যেকটি প্রদর্শিত হয় না)। পুরো প্রক্রিয়াটি 5 বার পুনরাবৃত্তি হয় কারণ আমরা সিভি.ফোল্ডস = 5 নির্বাচন করেছি।

StepSize সঙ্কুচিত বা শেখার হার নির্বাচিত (এখানে 0.005)।

আমি বিশ্বাস করি যে Improveঅন্য গাছ যুক্ত করে বিচ্যুতি (লোকসান ফাংশন) হ্রাস করা এবং আউট-অফ-ব্যাগ (ওওবি) রেকর্ড ব্যবহার করে গণনা করা হয় (দ্রষ্টব্য যে ব্যাগ.ফ্রাকশন <1 না থাকলে এটি গণনা করা হবে না)।

তারপরে প্রতিটি পুনরাবৃত্তির জন্য, TrainDeviance ValidDevianceপ্রশিক্ষণ ডেটা এবং হোল্ড আউট ডেটা (একটি একক হোল্ড আউট সেট) এর ক্ষতি ফাংশনের মান। train.fraction<1 না হলে ভ্যালিড ডেভিয়েন্স গণনা করা হবে না ।

আপনি দেখেছ এই যা গাছের অনুকূল সংখ্যা নির্ধারণের জন্য পদ্ধতি 3 ধরনের বর্ণনা করে?

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.