আর - অবশিষ্ট টার্মিনোলজি নিয়ে বিভ্রান্ত


34
  • রুট মানে স্কোয়ার ত্রুটি
  • বর্গাকার অবশিষ্টাংশ
  • অবশিষ্ট স্ট্যান্ডার্ড ত্রুটি
  • স্কোয়ার ত্রুটি মানে
  • পরীক্ষার ত্রুটি

আমি ভেবেছিলাম আমি এই পদগুলি বুঝতে পেরেছি তবে পরিসংখ্যানগত সমস্যাগুলি যত বেশি করি আমি নিজেকে আরও বিভ্রান্ত করেছি যেখানে আমি নিজেকে দ্বিতীয় অনুমান করি। আমি কিছু পুনঃ-নিশ্চয়তা এবং একটি দৃ example় উদাহরণ চাই

আমি সহজেই অনলাইনে পর্যাপ্ত পরিমাণে সমীকরণগুলি খুঁজে পেতে পারি তবে এই শর্তগুলির একটি ব্যাখ্যা '' আমি 5 এর মতো '' পেতে আমার সমস্যা হচ্ছে যাতে আমি আমার মাথার মধ্যে পার্থক্যগুলি কীভাবে স্ফটিক করতে পারি এবং কীভাবে একটি অন্যটির দিকে নিয়ে যায়।

যদি কেউ নীচে এই কোডটি নিতে পারে এবং আমি কীভাবে এই শর্তগুলির প্রতিটি গণনা করব তা নির্দেশ করে আমি এর প্রশংসা করব। আর কোড দুর্দান্ত হবে ..

নীচে এই উদাহরণ ব্যবহার করে:

summary(lm(mpg~hp, data=mtcars))

আর কোডে আমাকে কীভাবে সন্ধান করবেন তা দেখান:

rmse = ____
rss = ____
residual_standard_error = ______  # i know its there but need understanding
mean_squared_error = _______
test_error = ________

আমি 5 এর মধ্যে পার্থক্য / সাদৃশ্য বোঝানোর জন্য বোনাস পয়েন্টগুলি। উদাহরণ:

rmse = squareroot(mss)

2
আপনি যে পরীক্ষায় " পরীক্ষার ত্রুটি " শব্দটি শুনেছেন তা দিতে পারেন ? কারন হয় কিছু 'পরীক্ষা ত্রুটি' বলা কিন্তু আমি পুরোপুরি নিশ্চিত নই এটা আপনার জন্য ... (এটি একটি থাকার প্রেক্ষাপটে দেখা দেয় দুটো কারণে খুঁজছেন করছি টেস্ট সেট এবং একটি ট্রেনিং সেট যে শব্দ কোন --does পরিচিত? )
স্টিভ এস

হ্যাঁ - এটির জন্য আমার বোঝাপড়াটি হ'ল পরীক্ষার সেটটিতে প্রয়োগ হওয়া প্রশিক্ষণের সেটটিতে উত্পন্ন মডেল। পরীক্ষার ত্রুটি মডেল করা হয় - পরীক্ষার বা এর (মডেল ওয়াই - টেস্ট ওয়াই এর) ^ 2 বা (মডেলড ইয়েস - টেস্ট ওয়াই এর) ^ 2 /// ডিএফ (বা এন?) বা (মডেলড ইয়েস - টেস্ট ওয়াই এর) ^ 2 / এন) ^। 5?
user3788557

উত্তর:


60

অনুরোধ হিসাবে, আমি mtcarsডেটা ব্যবহার করে একটি সাধারণ রিগ্রেশন ব্যবহার করে চিত্রিত করেছি :

fit <- lm(mpg~hp, data=mtcars)
summary(fit)

Call:
lm(formula = mpg ~ hp, data = mtcars)

Residuals:
    Min      1Q  Median      3Q     Max 
-5.7121 -2.1122 -0.8854  1.5819  8.2360 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 30.09886    1.63392  18.421  < 2e-16 ***
hp          -0.06823    0.01012  -6.742 1.79e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 3.863 on 30 degrees of freedom
Multiple R-squared:  0.6024,    Adjusted R-squared:  0.5892 
F-statistic: 45.46 on 1 and 30 DF,  p-value: 1.788e-07

গড় স্কোয়ারড ত্রুটি (MSE) অবশিষ্টাংশ বর্গ গড় হল:

# Mean squared error
mse <- mean(residuals(fit)^2)
mse
[1] 13.98982

রুট গড় স্কোয়ার্ড ত্রুটি (আরএমএসই) এর পরে এমএসইয়ের বর্গমূল:

# Root mean squared error
rmse <- sqrt(mse)
rmse
[1] 3.740297

স্কোয়ারের অবশিষ্টাংশ (আরএসএস) হল বর্গাকার অবশিষ্টাংশের যোগফল :

# Residual sum of squares
rss <- sum(residuals(fit)^2)
rss
[1] 447.6743

অবশিষ্ট স্ট্যান্ডার্ড ত্রুটি (আরএসই) হল (আরএসএস / স্বাধীনতার ডিগ্রি) এর বর্গমূল:

# Residual standard error
rse <- sqrt( sum(residuals(fit)^2) / fit$df.residual ) 
rse
[1] 3.862962

একই গণনা, সরলীকৃত কারণ আমরা পূর্বে গণনা করেছি rss:

sqrt(rss / fit$df.residual)
[1] 3.862962

রিগ্রেশন (এবং অন্যান্য ভবিষ্যদ্বাণীমূলক বিশ্লেষণ কৌশল) এর প্রসঙ্গে পরীক্ষার ত্রুটি শব্দটি সাধারণত পরীক্ষার ডেটাগুলিতে একটি পরীক্ষার পরিসংখ্যান গণনা করে যা আপনার প্রশিক্ষণের ডেটা থেকে আলাদা।

অন্য কথায়, আপনি আপনার ডেটার একটি অংশ (প্রায়শই একটি 80% নমুনা) ব্যবহার করে কোনও মডেল অনুমান করেন এবং তারপরে হোল্ড-আউট নমুনাটি ব্যবহার করে ত্রুটিটি গণনা করছেন। আবার, আমি mtcars80% নমুনা ব্যবহার করে চিত্রিত করছি

set.seed(42)
train <- sample.int(nrow(mtcars), 26)
train
 [1] 30 32  9 25 18 15 20  4 16 17 11 24 19  5 31 21 23  2  7  8 22 27 10 28  1 29

মডেলটি অনুমান করুন, তারপরে হোল্ড-আউট ডেটা দিয়ে ভবিষ্যদ্বাণী করুন:

fit <- lm(mpg~hp, data=mtcars[train, ])
pred <- predict(fit, newdata=mtcars[-train, ])
pred
 Datsun 710     Valiant  Merc 450SE  Merc 450SL Merc 450SLC   Fiat X1-9 
   24.08103    23.26331    18.15257    18.15257    18.15257    25.92090 

একটি ডেটা ফ্রেমে আসল ডেটা এবং ভবিষ্যদ্বাণী একত্রিত করুন

test <- data.frame(actual=mtcars$mpg[-train], pred)
    test$error <- with(test, pred-actual)
test
            actual     pred      error
Datsun 710    22.8 24.08103  1.2810309
Valiant       18.1 23.26331  5.1633124
Merc 450SE    16.4 18.15257  1.7525717
Merc 450SL    17.3 18.15257  0.8525717
Merc 450SLC   15.2 18.15257  2.9525717
Fiat X1-9     27.3 25.92090 -1.3791024

এখন আপনার পরীক্ষার পরিসংখ্যানকে স্বাভাবিক উপায়ে গণনা করুন। আমি এমএসই এবং আরএমএসই বর্ণনা করি:

test.mse <- with(test, mean(error^2))
test.mse
[1] 7.119804

test.rmse <- sqrt(test.mse)
test.rmse
[1] 2.668296

মনে রাখবেন যে এই উত্তরটি পর্যবেক্ষণগুলির ওজনকে উপেক্ষা করে।


এই উত্তরটির জন্য ধন্যবাদ এটি সত্যই আমাকে বুঝতে সাহায্য করেছে। মডেল ফিট উপর গবেষণা করার সময় ডেটাচ্যাম্পের পাঠ্য আরএমএসইয়ের জন্য আপনার চেয়ে আলাদা সূত্র বর্ণনা করে। গুগল অনুসন্ধানের পরে আমি এই পৃষ্ঠাটি পেয়েছি । আপনি আরএমএসইয়ের জন্য যে সূত্রটি দিয়েছিলেন তা স্বজ্ঞাত জ্ঞান তৈরি করে এবং এটি বোঝা সহজ। আরএমএসইয়ের জন্য তাদের গণনা ডিনোমিনেটরে স্বাধীনতার ডিগ্রি জড়িত। এছাড়াও, আমি যদি তাদের পোস্টটি সঠিকভাবে পড়ে থাকি তবে তারা বলে যে আরএমএসএমিকে রেসিডুয়াল স্ট্যান্ডার্ড ত্রুটি বলে কিন্তু আপনার উত্তর থেকে এগুলি পৃথক মূল্যায়ন মেট্রিক। থটস?
ডগ ফির

22

আসল পোস্টারটির জন্য "আমি 5 বছরের মতো" ব্যাখ্যা জিজ্ঞাসা করে। আসুন ধরা যাক আপনার স্কুলের শিক্ষক আপনাকে এবং আপনার সহপাঠীদের শিক্ষকের সারণির প্রস্থ অনুমান করতে সহায়তা করার জন্য আমন্ত্রণ জানিয়েছেন। ক্লাসে 20 জন শিক্ষার্থীর প্রত্যেকটি একটি ডিভাইস (শাসক, স্কেল, টেপ বা গজ স্টিক) চয়ন করতে পারে এবং 10 বার টেবিলটি পরিমাপ করার অনুমতি দেওয়া হয়। আপনারা সবাইকে একই সংখ্যা বারবার পড়া এড়াতে ডিভাইসে বিভিন্ন প্রারম্ভিক অবস্থানগুলি ব্যবহার করতে বলা হয়; তারপরে প্রারম্ভিক পড়াটি শেষ পঠন থেকে বিয়োগ করতে হবে অবশেষে এক প্রস্থের পরিমাপ পেতে (আপনি কীভাবে এই ধরণের গণিতটি করবেন তা শিখলেন)।

ক্লাস দ্বারা নেওয়া মোট 200 প্রস্থের পরিমাপ ছিল (20 জন শিক্ষার্থী, প্রতিটি 10 ​​টি পরিমাপ)। পর্যবেক্ষণগুলি শিক্ষকের হাতে দেওয়া হয়েছে যারা সংখ্যাগুলি ক্রাচ করবেন। প্রতিটি শিক্ষার্থীর পর্যবেক্ষণকে একটি রেফারেন্স মান থেকে বিয়োগের ফলে আরও 200 টি সংখ্যা হবে, যাকে বিচ্যুতি বলে । শিক্ষক 20 টি উপায় অর্জন করে পৃথকভাবে প্রতিটি শিক্ষার্থীর নমুনা গড় করেন । প্রতিটি শিক্ষার্থীর পর্যবেক্ষণকে তাদের পৃথক গড় থেকে বিয়োগ করার ফলে গড় থেকে 200 টি বিচ্যুতি ঘটবে, তাকে অবশিষ্টাংশ বলা হয় । যদি প্রতিটি নমুনার জন্য গড় অবশিষ্টাংশ গণনা করা হয় তবে আপনি লক্ষ্য করবেন যে এটি সর্বদা শূন্য। পরিবর্তে যদি আমরা প্রতিটি অবশিষ্টাংশ বর্গক্ষেত্র করি, সেগুলি গড়ে গড়েছি এবং শেষ পর্যন্ত বর্গটিকে পূর্বাবস্থায় ফিরিয়ে আনি, আমরা মানক বিচ্যুতি অর্জন করি। (উপায় দ্বারা, আমরা শেষ গণনাটিকে বর্গমূলের বিট বলি (প্রদত্ত বর্গের ভিত্তি বা পাশ সন্ধান করার চিন্তাভাবনা করি), সুতরাং পুরো ক্রিয়াকলাপটিকে প্রায়শই সংক্ষেপে মূল-বর্গক্ষেত্র বলা হয় ; পর্যবেক্ষণগুলির স্ট্যান্ডার্ড বিচ্যুতি সমান অবশিষ্টাংশের মূল-বর্গক্ষেত্র)

কারখানায় এটি কীভাবে নকশা করা এবং তৈরি এবং চেক করা হয়েছিল তার উপর ভিত্তি করে শিক্ষক প্রকৃত টেবিল প্রস্থটি ইতিমধ্যে জানতেন। সুতরাং ত্রুটি নামে পরিচিত আরও 200 টি সংখ্যা সত্য প্রস্থের সাথে সম্পর্কিত পর্যবেক্ষণের বিচ্যুতি হিসাবে গণনা করা যেতে পারে। প্রতিটি শিক্ষার্থীর নমুনার জন্য একটি গড় ত্রুটি গণনা করা যায়। তেমনি, ত্রুটি বা স্ট্যান্ডার্ড ত্রুটির 20 স্ট্যান্ডার্ড বিচ্যুতি পর্যবেক্ষণের জন্য গণনা করা যেতে পারে। আরও 20 টি মূল-বর্গক্ষেত্র ত্রুটিমানগুলিও গণনা করা যায়। 20 টি মানের তিনটি সেট বর্গক্ষেত্র (me ^ 2 + se ^ 2) = rmse, উপস্থিতির ক্রম হিসাবে সম্পর্কিত। আরএমএসের উপর ভিত্তি করে, শিক্ষক বিচার করতে পারবেন যার ছাত্রটি সারণির প্রস্থের জন্য সর্বোত্তম অনুমান প্রদান করেছিল। তদতিরিক্ত, ২০ টি ত্রুটিযুক্ত ত্রুটি এবং 20 টি মান ত্রুটির মানগুলি আলাদাভাবে দেখে, শিক্ষক প্রতিটি ছাত্রকে তাদের পড়াশোনার উন্নতি করার জন্য নির্দেশ দিতে পারেন।

একটি পরীক্ষার হিসাবে, শিক্ষক প্রতিটি ত্রুটি তাদের নিজ নিজ গড় ত্রুটি থেকে বিয়োগ করেছেন, ফলস্বরূপ আরও 200 সংখ্যা হয়েছে, যা আমরা অবশিষ্টাংশে ত্রুটি বলব (এটি প্রায়শই হয় না)। উপরের হিসাবে, গড় অবশিষ্টাংশ ত্রুটি শূন্য, সুতরাং অবশিষ্টাংশগুলির ত্রুটিগুলির স্ট্যান্ডার্ড বিচ্যুতি বা স্ট্যান্ডার্ড রেসিডুয়াল ত্রুটি স্ট্যান্ডার্ড ত্রুটির মতোই এবং বাস্তবে, মূল-বর্গক্ষেত্রের অবশিষ্ট অবধিও ত্রুটি । (বিস্তারিত জানার জন্য নীচে দেখুন।)

এখন এখানে শিক্ষকের আগ্রহের কিছু রয়েছে। আমরা প্রতিটি শিক্ষার্থী গড়কে ক্লাসের বাকী অংশের সাথে (20 টি মোট অর্থ) তুলনা করতে পারি। ঠিক যেমন আমরা এই বিন্দু মানের আগে সংজ্ঞায়িত করেছি:

  • মি: গড় (পর্যবেক্ষণের),
  • s: স্ট্যান্ডার্ড বিচ্যুতি (পর্যবেক্ষণগুলির)
  • আমি: গড় ত্রুটি (পর্যবেক্ষণের)
  • সে: মান ত্রুটি (পর্যবেক্ষণগুলির)
  • আরএমএস: মূল-বর্গক্ষেত্র ত্রুটি (পর্যবেক্ষণগুলির)

আমরা এখন সংজ্ঞা দিতে পারি:

  • মিমি: মানে গড়
  • এসএম: গড়ের মানক বিচ্যুতি
  • মেম: গড়ের ত্রুটি
  • সেম: গড়ের স্ট্যান্ডার্ড ত্রুটি
  • rmsem: গড়ের মূল-বর্গের ত্রুটি

কেবলমাত্র যদি শ্রেণীর শিক্ষার্থীদের পক্ষপাতহীন বলা হয়, অর্থাত্ যদি মেম = 0 হয়, তবে সেম = স্ম = আরএমএসএম; অর্থাত্, গড়টির স্ট্যান্ডার্ড ত্রুটি, গড়টির মানক বিচ্যুতি এবং মূল-গড়-বর্গক্ষেত্র ত্রুটি অর্থটি একই হতে পারে তবে অর্থের গড় ত্রুটি শূন্য হয়।

যদি আমরা কেবলমাত্র একটি নমুনা নিয়ে থাকি, যেমন, ক্লাসে কেবলমাত্র একজন শিক্ষার্থী থাকত তবে পর্যবেক্ষণ (গুলি) এর স্ট্যান্ডার্ড বিচ্যুতিটি এসএম ^ 2 ~ s as হিসাবে গড় (এসএম) এর মানক বিচ্যুতি অনুমান করতে ব্যবহৃত হত 2 / এন, যেখানে এন = 10 হ'ল নমুনা আকার (প্রতি শিক্ষার্থীর পঠনের সংখ্যা)। দু'জনই নমুনার আকার বাড়ার সাথে সাথে আরও ভালভাবে একমত হবেন (n = 10,11, ...; প্রতি শিক্ষার্থীর আরও বেশি পড়া) এবং নমুনার সংখ্যা বেড়ে যায় (n '= 20,21, ...; ক্লাসে আরও শিক্ষার্থী)। (একটি সতর্কতামূলক: একটি অযোগ্য "স্ট্যান্ডার্ড ত্রুটি" প্রায়শই অর্থের স্ট্যান্ডার্ড ত্রুটি বোঝায়, পর্যবেক্ষণগুলির স্ট্যান্ডার্ড ত্রুটি নয়))

জড়িত গণনার কয়েকটি বিবরণ এখানে দেওয়া হল। আসল মান টি।

সেট-টু-পয়েন্ট অপারেশন:

  • অর্থ: অর্থ (এক্স)
  • মূল-বর্গক্ষেত্র: আরএমএস (এক্স)
  • স্ট্যান্ডার্ড বিচ্যুতি: এসডি (এক্স) = আরএমএস (এক্স-মিয়ান (এক্স))

ইন্ট্রা-নমুনা সেট:

  • পর্যবেক্ষণ (প্রদত্ত), এক্স = {x_i}, i = 1, 2, ..., এন = 10।
  • বিচ্যুতি: একটি নির্দিষ্ট পয়েন্ট সম্মানের সাথে একটি সেট পার্থক্য।
  • অবশিষ্টগুলি: তাদের গড় থেকে পর্যবেক্ষণের বিচ্যুতি, আর = এক্সএম।
  • ত্রুটি: সত্য মান থেকে পর্যবেক্ষণের বিচ্যুতি, E = Xt।
  • অবশিষ্ট ত্রুটি: তাদের গড় থেকে ত্রুটিগুলির বিচ্যুতি, আর = ই-মিয়ান (ই)

ইন্ট্রা-নমুনা পয়েন্টস (টেবিল 1 দেখুন):

  • মি: গড় (পর্যবেক্ষণের),
  • s: স্ট্যান্ডার্ড বিচ্যুতি (পর্যবেক্ষণগুলির)
  • আমি: গড় ত্রুটি (পর্যবেক্ষণের)
  • সে: পর্যবেক্ষণগুলির স্ট্যান্ডার্ড ত্রুটি
  • আরএমএস: মূল-বর্গক্ষেত্র ত্রুটি (পর্যবেক্ষণগুলির)

1 নং টেবিল

ইন্টার-নমুনা (এনএসএমবল) সেট:

  • মানে, এম = {এম_জ}, জে = 1, 2, ..., এন '= 20
  • গড়ের অবশিষ্টাংশ: তাদের গড় থেকে অর্থের বিচ্যুতি, আরএম = এম-মিমি।
  • গড়ের ত্রুটি: "সত্য" থেকে উপায়ের বিচ্যুতি, EM = Mt।
  • গড়ের অবশিষ্টাংশের ত্রুটি: তাদের গড় থেকে গড়ের ত্রুটিগুলির বিচ্যুতি, REM = EM-MEAN (EM)

ইন্টার-নমুনা (ENSEMBLE) পয়েন্টগুলি (টেবিল 2 দেখুন):

  • মিমি: মানে গড়
  • এসএম: গড়ের মানক বিচ্যুতি
  • মেম: গড়ের ত্রুটি
  • সেম: মান ত্রুটি (গড়ের)
  • rmsem: গড়ের মূল-বর্গের ত্রুটি

টেবিল ২


0

আমি সমস্ত শর্তাবলী খুব বিভ্রান্তিকর বলে মনে করি। আমি দৃ strongly়ভাবে অনুভব করি যে কেন আমাদের এতগুলি মেট্রিক রয়েছে তা ব্যাখ্যা করা দরকার।

এসএসই এবং আরএমএসইতে আমার নোটটি এখানে:

প্রথম মেট্রিক: স্কোয়ার ত্রুটিগুলির সমষ্টি (এসএসই)। অন্যান্য নাম, রেসিডুয়াল সামের অফ স্কোয়ার্স (আরএসএস), সমষ্টি অফ স্কোয়ার্ড রেসিডুয়ালস (এসএসআর)।

আমরা যদি অপটিমাইজেশন সম্প্রদায়টিতে থাকি তবে এসএসই ব্যাপকভাবে ব্যবহৃত হয়। এটি অপ্টিমাইজেশনের উদ্দেশ্য যেখানে এটি হয়, যেখানে অপ্টিমাইজেশন

কমানβ এক্সβ-Y2

=এক্সβ-Y2=টি

দ্বিতীয় মেট্রিক: রুট-গড়-স্কোয়ার ত্রুটি (আরএমএসই) । অন্যান্য নাম, মূল-স্কোয়ার বিচ্যুতি।

আরএমএসই হ'ল

1এন(এক্সβ-Y)=1এনটি

এন

Y

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.