প্রকৃতপক্ষে, আমি ভেবেছিলাম আংশিক নির্ভরতার প্লট দিয়ে কেউ কী কী প্রদর্শন করতে পারে তা আমি বুঝতে পেরেছি, তবে খুব সাধারণ অনুমানমূলক উদাহরণ ব্যবহার করে আমি বিস্মিত হয়ে পড়েছি। কোডের নিম্নলিখিত খণ্ড আমি তিনটি স্বাধীন ভেরিয়েবল (উৎপন্ন একটি , খ , গ ) এবং নির্ভরশীল পরিবর্তনশীল ( Y ) সঙ্গে গ সঙ্গে ঘনিষ্ঠ রৈখিক সম্পর্ক দেখানো Y , যখন একটি এবং খ সঙ্গে আনকোরিলেটেড Y । আমি আর প্যাকেজটি ব্যবহার করে একটি উত্সাহিত রিগ্রেশন ট্রি দিয়ে একটি রিগ্রেশন বিশ্লেষণ করি gbm
:
a <- runif(100, 1, 100)
b <- runif(100, 1, 100)
c <- 1:100 + rnorm(100, mean = 0, sd = 5)
y <- 1:100 + rnorm(100, mean = 0, sd = 5)
par(mfrow = c(2,2))
plot(y ~ a); plot(y ~ b); plot(y ~ c)
Data <- data.frame(matrix(c(y, a, b, c), ncol = 4))
names(Data) <- c("y", "a", "b", "c")
library(gbm)
gbm.gaus <- gbm(y ~ a + b + c, data = Data, distribution = "gaussian")
par(mfrow = c(2,2))
plot(gbm.gaus, i.var = 1)
plot(gbm.gaus, i.var = 2)
plot(gbm.gaus, i.var = 3)
না আশ্চর্যজনক, ভেরিয়েবলের জন্য একটি এবং খ আংশিক নির্ভরতা প্লট গড় প্রায় অনুভূমিক রেখা উত্পাদ একটি । আমার ধাঁধাটি কী পরিবর্তনশীল গ এর প্লট । আমি ব্যাপ্তির জন্য অনুভূমিক রেখা পেতে গ <40 এবং গ > 60 এবং y অক্ষ গড় পাসে মান অবধি সীমিত থাকবে Y । যেহেতু a এবং b সম্পূর্ণরূপে y এর সাথে সম্পর্কিত নয় (এবং এইভাবে মডেলটির পরিবর্তনশীল গুরুত্ব 0), আমি প্রত্যাশা করি যে সিএর মানগুলির একটি খুব সীমিত পরিসরের জন্য সিগময়েড আকারের পরিবর্তে এর পুরো পরিসীমা জুড়ে আংশিক নির্ভরতা দেখায়। আমি ফ্রেডম্যান (2001) "লোভী ফাংশন আনুমানিককরণ: একটি গ্রেডিয়েন্ট বুস্টিং মেশিন" এবং হাস্টি এট আল-তে তথ্য সন্ধান করার চেষ্টা করেছি। (২০১১) "স্ট্যাটিস্টিকাল লার্নিং এর উপাদানসমূহ", তবে আমার গাণিতিক দক্ষতা এতে সমস্ত সমীকরণ এবং সূত্রগুলি বোঝার জন্য খুব কম। এইভাবে আমার প্রশ্ন: পরিবর্তনশীল সি এর জন্য আংশিক নির্ভরতা প্লটের আকারটি কী নির্ধারণ করে ? (অনুগ্রহপূর্বক কোনও অংক-গণিতবিদকে বোঝার মতো শব্দে ব্যাখ্যা করুন!)
17 এপ্রিল 2014 এ যুক্ত হয়েছে:
প্রতিক্রিয়ার জন্য অপেক্ষা করার সময়, আমি আর-প্যাকেজ সহ বিশ্লেষণের জন্য একই উদাহরণ ডেটা ব্যবহার করেছি randomForest
। র্যান্ডমফোরস্টের আংশিক নির্ভরতা প্লটগুলি জিবিএম প্লটের কাছ থেকে আমার প্রত্যাশার সাথে অনেক বেশি মিলছে: বর্ণনামূলক ভেরিয়েবলের a এবং b এর আংশিক নির্ভরতা এলোমেলোভাবে এবং ঘনিষ্ঠভাবে 50 এর কাছাকাছি পরিবর্তিত হয়, যখন ব্যাখ্যামূলক ভেরিয়েবল সি এর সম্পূর্ণ পরিসীমা (এবং প্রায় উপরের দিকে আংশিক নির্ভরতা দেখায়) y এর সম্পূর্ণ ব্যাপ্তি )। কি আংশিক নির্ভরতা প্লট এই বিভিন্ন আকার কারণ হতে পারে gbm
এবং randomForest
?
এখানে পরিবর্তিত কোড যা প্লটের তুলনা করে:
a <- runif(100, 1, 100)
b <- runif(100, 1, 100)
c <- 1:100 + rnorm(100, mean = 0, sd = 5)
y <- 1:100 + rnorm(100, mean = 0, sd = 5)
par(mfrow = c(2,2))
plot(y ~ a); plot(y ~ b); plot(y ~ c)
Data <- data.frame(matrix(c(y, a, b, c), ncol = 4))
names(Data) <- c("y", "a", "b", "c")
library(gbm)
gbm.gaus <- gbm(y ~ a + b + c, data = Data, distribution = "gaussian")
library(randomForest)
rf.model <- randomForest(y ~ a + b + c, data = Data)
x11(height = 8, width = 5)
par(mfrow = c(3,2))
par(oma = c(1,1,4,1))
plot(gbm.gaus, i.var = 1)
partialPlot(rf.model, Data[,2:4], x.var = "a")
plot(gbm.gaus, i.var = 2)
partialPlot(rf.model, Data[,2:4], x.var = "b")
plot(gbm.gaus, i.var = 3)
partialPlot(rf.model, Data[,2:4], x.var = "c")
title(main = "Boosted regression tree", outer = TRUE, adj = 0.15)
title(main = "Random forest", outer = TRUE, adj = 0.85)