ম্যানুয়ালি গণনা করা


38

আমি জানি এটি মোটামুটি নির্দিষ্ট Rপ্রশ্ন, তবে আমি অনুপাতের বৈচিত্রটি ব্যাখ্যা করা, , ভুলভাবে ভেবে ভাবতে পারি । এখানে যায়।আর2

আমি Rপ্যাকেজটি ব্যবহার করার চেষ্টা করছি randomForest। আমার কাছে কিছু প্রশিক্ষণের ডেটা এবং পরীক্ষার ডেটা রয়েছে। আমি যখন একটি এলোমেলো বন মডেল ফিট করি, randomForestফাংশনটি আপনাকে পরীক্ষার জন্য নতুন পরীক্ষার ডেটা ইনপুট করতে দেয়। এটি আপনাকে এই নতুন ডেটাতে ব্যাখ্যা করা বৈকল্পিকতার শতাংশ বলে দেয়। আমি এই তাকান, আমি একটি নম্বর পেতে।

আমি যখন predict()প্রশিক্ষণ ডেটা থেকে উপযুক্ত মডেলের উপর ভিত্তি করে পরীক্ষার তথ্যের ফলাফলের পূর্বাভাস দেওয়ার জন্য এই ফাংশনটি ব্যবহার করি এবং আমি এই মানগুলি এবং পরীক্ষার ডেটার জন্য প্রকৃত ফলাফলের মানগুলির মধ্যে বর্গক্ষেত্রের সহসংযোগ সহগ গ্রহণ করি, তখন আমি একটি আলাদা নম্বর পাই। এই মানগুলি মেলে না

Rসমস্যাটি প্রদর্শনের জন্য এখানে কিছু কোড।

# use the built in iris data
data(iris)

#load the randomForest library
library(randomForest)

# split the data into training and testing sets
index <- 1:nrow(iris)
trainindex <- sample(index, trunc(length(index)/2))
trainset <- iris[trainindex, ]
testset <- iris[-trainindex, ]

# fit a model to the training set (column 1, Sepal.Length, will be the outcome)
set.seed(42)
model <- randomForest(x=trainset[ ,-1],y=trainset[ ,1])

# predict values for the testing set (the first column is the outcome, leave it out)
predicted <- predict(model, testset[ ,-1])

# what's the squared correlation coefficient between predicted and actual values?
cor(predicted, testset[, 1])^2

# now, refit the model using built-in x.test and y.test
set.seed(42)
randomForest(x=trainset[ ,-1], y=trainset[ ,1], xtest=testset[ ,-1], ytest=testset[ ,1])

উত্তর:


52

কারণ মান মিলে নেই কারণ প্রতিবেদন প্রকরণ ব্যাখ্যা ভিন্ন করতে ভ্যারিয়েন্স ব্যাখ্যা। আমি মনে করি এটি সম্পর্কে একটি সাধারণ ভুল বোঝাবুঝি যা পাঠ্যপুস্তকে স্থায়ী হয়। এমনকি আমি অন্য দিন এটি অন্য থ্রেডে উল্লেখ করেছি। আপনি যদি উদাহরণ চান তবে (অন্যথায় বেশ ভাল) পাঠ্যপুস্তক সেবার এবং লি, লিনিয়ার রিগ্রেশন অ্যানালাইসিস , ২ য় দেখুন। ইডি।আর 2আর2randomForestআর2

একটি সাধারণ সংজ্ঞা হ'ল আর 2 = 1 - Σ আমি ( Y আমি - Y আমি ) 2আর2

আর2=1-Σআমি(Yআমি-Y^আমি)2Σআমি(Yআমি-Y¯)2

অর্থাৎ, আমরা গড়-স্কোয়ার ত্রুটিটি গণনা করি, এটি মূল পর্যবেক্ষণের বৈকল্পিক দ্বারা ভাগ করে এবং তারপরে এটি একটি থেকে বিয়োগ করি। (মনে রাখবেন যে আপনার পূর্বাভাসগুলি সত্যই খারাপ হলে এই মানটি নেতিবাচক হতে পারে))

এখন, কি রৈখিক রিগ্রেশনের সঙ্গে ঘটে ( একটি পথিমধ্যে শব্দটি সঙ্গে! ) যে গড় মূল্য এর ম্যাচ । তদ্ব্যতীত, অবশিষ্ট ভেক্টর লাগানো মূল্যবোধের ভেক্টরকে লম্ব হয় । আপনি যখন এই দুটি জিনিস একসাথে রেখেছেন, তারপরে সংজ্ঞাটি হ্রাস পেয়ে যা সাধারণত দেখা যায়, যেমন, (আমি সাবস্ক্রিপ্টগুলোর ব্যবহার করেছি মধ্যে ইঙ্গিত রৈখিক রিগ্রেশনের ।)Y^আমিY¯Y-Y^Y^

আরএলআর2=সিRR(Y,Y^)2
এলআরআরএলআর2

randomForestকল প্রথম সংজ্ঞা ব্যবহার করছে, তাই আপনি যদি না

   > y <- testset[,1]
   > 1 - sum((y-predicted)^2)/sum((y-mean(y))^2)

উত্তরগুলি মেলে দেখবেন।


1
আর2

(+1) সত্যিই খুব মার্জিত প্রতিক্রিয়া।
chl

@ এমপিক্টাস, @ সিএইচএল, আমি আজ আরও একটু পরে এটিকে প্রসারিত করার চেষ্টা করব। মূলত, ব্যাকগ্রাউন্ডে অনুমানের পরীক্ষার সাথে একটি ঘনিষ্ঠ (তবে সম্ভবত কিছুটা লুকানো) সংযোগ রয়েছে। এমনকি লিনিয়ার রিগ্রেশন সেটিং-এ, যদি ধ্রুবক ভেক্টর ডিজাইন ম্যাট্রিক্সের কলাম স্পেসে না থাকে তবে "পারস্পরিক সম্পর্ক" সংজ্ঞা ব্যর্থ হবে।
কার্ডিনাল

আপনার যদি সেবার / লি পাঠ্যপুস্তক (আমার কাছে অ্যাক্সেসযোগ্য) ব্যতীত অন্য কোনও রেফারেন্স থাকে তবে আমি ভিন্নতা কীভাবে ব্যাখ্যা করা হয়েছে (যেমন 1-এসএসআর / এসএসটোট) স্কোয়ার রিলেশন সহগ বা ভিন্নতার ব্যাখ্যা দিয়েছি তার একটি ভাল ব্যাখ্যা দেখতে চাই love টিপটির জন্য আবার ধন্যবাদ।
স্টিফেন টার্নার

আর-বর্গক্ষেত্রের মানটি যদি ইনস্ট্রুমেন্টাল ভেরিয়েবল রিগ্রেশন ফলাফল থেকে নেতিবাচক হয় তবে এই নেতিবাচক মানটিকে দমন করার এবং প্রতিবেদনের স্বার্থে কোনও ইতিবাচক মান হিসাবে অনুবাদ করার কোনও উপায় আছে কি? এই লিঙ্কটি দেখুন দয়া করে: stata.com/support/faqs/statistics/two-stage-least-squares
এরিক
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.