এই শর্তাদি বোঝার সর্বোত্তম উপায় হ'ল হাত দ্বারা একটি রিগ্রেশন গণনা করা। আমি দুটি ঘনিষ্ঠভাবে সম্পর্কিত উত্তর লিখেছি ( এখানে এবং এখানে ) তবে তারা আপনাকে আপনার বিশেষ ক্ষেত্রে বুঝতে সম্পূর্ণরূপে সহায়তা করবে না। তবে তবুও তাদের মাধ্যমে পড়ুন। হতে পারে তারা আপনাকে এই শর্তাদি আরও ভালভাবে ধারণ করতে সহায়তা করবে।
রিগ্রেশন (বা আনোভা) এ আমরা একটি নমুনা ডেটাसेटের উপর ভিত্তি করে একটি মডেল তৈরি করি যা আমাদের আগ্রহের জনসংখ্যার থেকে ফলাফলগুলি ভবিষ্যদ্বাণী করতে সক্ষম করে। এটি করার জন্য, নিম্নলিখিত তিনটি উপাদান একটি সাধারণ লিনিয়ার রিগ্রেশনতে গণনা করা হয় যা থেকে অন্যান্য উপাদানগুলি গণনা করা যায়, যেমন গড় বর্গক্ষেত্র, এফ-মান, (এছাড়াও সমন্বিত ), এবং অবশিষ্টগুলি স্ট্যান্ডার্ড ত্রুটি ( ):আর2আর2আর এসই
- স্কোয়ারের ( )এসএসt ও টি a l
- স্কোয়ারের ( )এসএসr e s i dআপনি একটি l
- বর্গাকার ( )এসএসএম ও ডিই এল
তাদের প্রত্যেকটি মূল্যায়ন করছে যে মডেলটি কীভাবে ডেটা বর্ণনা করে এবং ডেটা পয়েন্ট থেকে ফিটেড মডেলের (নীচের চক্রান্তের লাল রেখায় চিত্রিত) বর্গাকার দূরত্বগুলির যোগফল।
মূল্যায়ন কত ভাল গড় তড়কা তথ্য। মানে কেন? কারণটি হ'ল সহজতম মডেল যা আমরা ফিট করতে পারি এবং তাই সেই মডেল হিসাবে পরিবেশন করে যা সর্বনিম্ন-স্কোয়ারের রিগ্রেশন লাইনের সাথে তুলনা করা হয়। এই প্লটটি ডেটাসেট ব্যবহার করে তা চিত্রিত করে:এসএসt ও টি a lcars
এসএসr e s i dআপনি একটি l
এসএসএম ও ডিই এলএসএসt ও টি a lএসএসr e s i dআপনি একটি l
আপনার প্রশ্নের উত্তর দেওয়ার জন্য প্রথমে সেই শর্তাদি গণনা করুন যা আপনি মডেল এবং আউটপুট দিয়ে রেফারেন্স হিসাবে শুরু করে বুঝতে চান:
# The model and output as reference
m1 <- lm(dist ~ speed, data = cars)
summary(m1)
summary.aov(m1) # To get the sums of squares and mean squares
স্কোয়ারের যোগফলগুলি মডেলের দিকে পৃথক ডেটার পয়েন্টের বর্গক্ষেত্রের দূরত্ব:
# Calculate sums of squares (total, residual and model)
y <- cars$dist
ybar <- mean(y)
ss.total <- sum((y-ybar)^2)
ss.total
ss.residual <- sum((y-m1$fitted)^2)
ss.residual
ss.model <- ss.total-ss.residual
ss.model
গড় স্কোয়ারগুলি হল স্বাধীনতার ডিগ্রি দ্বারা গড় স্কোয়ারগুলির যোগফল:
# Calculate degrees of freedom (total, residual and model)
n <- length(cars$speed)
k <- length(m1$coef) # k = model parameter: b0, b1
df.total <- n-1
df.residual <- n-k
df.model <- k-1
# Calculate mean squares (note that these are just variances)
ms.residual <- ss.residual/df.residual
ms.residual
ms.model<- ss.model/df.model
ms.model
আপনার প্রশ্নের আমার উত্তর:
চতুর্থাংশ 1:
- এটি আসলে এলএম লাইন থেকে পর্যবেক্ষণের মানগুলির গড় দূরত্ব?
আর এসইএমএসr e s i dআপনি একটি l
# Calculate residual standard error
res.se <- sqrt(ms.residual)
res.se
এসএসr e s i dআপনি একটি lএমএসr e s i dআপনি একটি l এসএসr e s i dআপনি একটি lআর এসইমডেল থেকে পর্যবেক্ষণ করা ডেটার গড় দূরত্ব উপস্থাপন করে। স্বজ্ঞাতভাবে, এটি নিখুঁত ধারণা দেয় কারণ যদি দূরত্ব কম হয় তবে আপনার মডেল ফিটটি আরও ভাল।
Q2 এর:
- এখন আমি বিভ্রান্ত হয়ে পড়ছি কারণ যদি আরএসই আমাদের জানায় যে আমাদের পর্যবেক্ষণকৃত পয়েন্টগুলি রিগ্রেশন লাইন থেকে কতটা দূরে সরে যায় তবে কোনও কম আরএসই কমপক্ষে আমাদের বলছে "আপনার মডেল পর্যবেক্ষণ করা ডেটার পয়েন্টগুলির উপর ভিত্তি করে ভাল ফিট করছে" -> এইভাবে আমাদের মডেলগুলি কতটা ফিট করে , তাহলে আর স্কোয়ার এবং আরএসইয়ের মধ্যে পার্থক্য কী?
আর2এসএসএম ও ডিই এলএসএসt ও টি a l
# R squared
r.sq <- ss.model/ss.total
r.sq
আর2এসএসt ও টি a lএসএসএম ও ডিই এল
আর এসইআর2আর এসই
আর2
চতুর্থাংশ 3:
- এটি কি সত্য যে আমরা একটি শক্তিশালী সম্পর্ক নির্দেশ করে এমন একটি এফ মান রাখতে পারি যা কোনও লাইন নয় যাতে আমাদের আরএসই বেশি হয় এবং আমাদের আর স্কোয়ার কম হয়
এফএমএসএম ও ডিই এলএমএসr e s i dআপনি একটি l
# Calculate F-value
F <- ms.model/ms.residual
F
# Calculate P-value
p.F <- 1-pf(F, df.model, df.residual)
p.F
এফ
আপনার তৃতীয় প্রশ্নটি বোঝা কিছুটা কঠিন তবে আমি আপনার প্রদত্ত উদ্ধৃতিটির সাথে একমত।