লিনিয়ার রিগ্রেশন এফ পরিসংখ্যান, আর স্কোয়ার এবং অবশিষ্টাংশের স্ট্যান্ডার্ড ত্রুটি কী বলে?


14

নিম্নলিখিত শর্তগুলির লিনিয়ার রিগ্রেশন প্রসঙ্গে আপনার অর্থের পার্থক্য সম্পর্কে আমি সত্যিই বিভ্রান্ত হয়েছি:

  • চ পরিসংখ্যান
  • স্কোয়ার
  • অবশিষ্ট স্ট্যান্ডার্ড ত্রুটি

আমি এই ওয়েবটিটি পেয়েছি যা রৈখিক প্রতিরোধের সাথে জড়িত বিভিন্ন পদগুলিতে আমাকে দুর্দান্ত অন্তর্দৃষ্টি দিয়েছে, তবে উপরে বর্ণিত শর্তগুলি দেখতে অনেকটা দেখতে (যতদূর আমি বুঝতে পারি)। আমি যা পড়েছি এবং কী আমাকে বিভ্রান্ত করেছে তা উদ্ধৃত করব:

রেসিডুয়াল স্ট্যান্ডার্ড ত্রুটি একটি লিনিয়ার রিগ্রেশন ফিটের গুণমানের পরিমাপ ....... রেসিডুয়াল স্ট্যান্ডার্ড ত্রুটি হল প্রতিক্রিয়া (ডিস্ট) সত্যিকারের রিগ্রেশন লাইন থেকে বিচ্যুত হবে এমন গড় পরিমাণ।

১. এটি আসলে এলএম লাইন থেকে পর্যবেক্ষণের মানগুলির গড় দূরত্ব?

আর-স্কোয়ার স্ট্যাটিস্টিক একটি মডেল প্রকৃত ডেটা কতটা ফিট করে তা পরিমাপ করে।

২. এখন আমি বিভ্রান্ত হয়ে পড়ছি কারণ যদি আরএসই আমাদের জানায় যে আমাদের পর্যবেক্ষণকৃত পয়েন্টগুলি রিগ্রেশন লাইন থেকে কতটা দূরে সরে যায় তবে কোনও নিচু আরএসই আসলে আমাদের বলছে "আপনার মডেল পর্যবেক্ষণ করা ডেটার পয়েন্টের উপর ভিত্তি করে ভাল ফিট করছে" -> এভাবে আমাদের কতটা ভাল মডেল ফিট করে, তাই আর স্কোয়ার্ড এবং আরএসইয়ের মধ্যে পার্থক্য কী?

আমাদের ভবিষ্যদ্বাণীকারী এবং প্রতিক্রিয়াশীল ভেরিয়েবলের মধ্যে সম্পর্ক আছে কিনা তার পক্ষে এফ-স্ট্যাটিস্টিক একটি ভাল সূচক।

৩. এটি কী সত্য যে আমরা একটি শক্তিশালী সম্পর্ক নির্দেশ করে এমন একটি এফ মান রাখতে পারি যা কোনও লাইন নয় যাতে আমাদের আরএসই উচ্চ হয় এবং আমাদের আর স্কোয়ার কম হয়


প্রশ্ন 3 ফলমূল অ লিনিয়ার সম্পর্ক নির্দেশ করে না। এটি এমন একটি অনুপাত যা নির্দেশ করে যে দুটি ভেরিয়েবলের মধ্যে স্থিতিশীল (ধ্রুবক) সম্পর্ক রয়েছে - নির্ভরশীল এবং স্বতন্ত্র।
সুভাষ সি। দাবার

এটি আমাদের সম্পর্কের প্রকৃতি বলতে পারে না - ননলাইনার বা লিনিয়ার।
সুভাষ সি। দাবার

উত্তর:


12

এই শর্তাদি বোঝার সর্বোত্তম উপায় হ'ল হাত দ্বারা একটি রিগ্রেশন গণনা করা। আমি দুটি ঘনিষ্ঠভাবে সম্পর্কিত উত্তর লিখেছি ( এখানে এবং এখানে ) তবে তারা আপনাকে আপনার বিশেষ ক্ষেত্রে বুঝতে সম্পূর্ণরূপে সহায়তা করবে না। তবে তবুও তাদের মাধ্যমে পড়ুন। হতে পারে তারা আপনাকে এই শর্তাদি আরও ভালভাবে ধারণ করতে সহায়তা করবে।

রিগ্রেশন (বা আনোভা) এ আমরা একটি নমুনা ডেটাसेटের উপর ভিত্তি করে একটি মডেল তৈরি করি যা আমাদের আগ্রহের জনসংখ্যার থেকে ফলাফলগুলি ভবিষ্যদ্বাণী করতে সক্ষম করে। এটি করার জন্য, নিম্নলিখিত তিনটি উপাদান একটি সাধারণ লিনিয়ার রিগ্রেশনতে গণনা করা হয় যা থেকে অন্যান্য উপাদানগুলি গণনা করা যায়, যেমন গড় বর্গক্ষেত্র, এফ-মান, (এছাড়াও সমন্বিত ), এবং অবশিষ্টগুলি স্ট্যান্ডার্ড ত্রুটি ( ):R2R2RSE

  1. স্কোয়ারের ( )SStotal
  2. স্কোয়ারের ( )SSresidual
  3. বর্গাকার ( )SSmodel

তাদের প্রত্যেকটি মূল্যায়ন করছে যে মডেলটি কীভাবে ডেটা বর্ণনা করে এবং ডেটা পয়েন্ট থেকে ফিটেড মডেলের (নীচের চক্রান্তের লাল রেখায় চিত্রিত) বর্গাকার দূরত্বগুলির যোগফল।

মূল্যায়ন কত ভাল গড় তড়কা তথ্য। মানে কেন? কারণটি হ'ল সহজতম মডেল যা আমরা ফিট করতে পারি এবং তাই সেই মডেল হিসাবে পরিবেশন করে যা সর্বনিম্ন-স্কোয়ারের রিগ্রেশন লাইনের সাথে তুলনা করা হয়। এই প্লটটি ডেটাসেট ব্যবহার করে তা চিত্রিত করে:SStotalcars

এখানে চিত্র বর্ণনা লিখুন

SSresidual

এখানে চিত্র বর্ণনা লিখুন

SSmodelSStotalSSresidual

এখানে চিত্র বর্ণনা লিখুন

আপনার প্রশ্নের উত্তর দেওয়ার জন্য প্রথমে সেই শর্তাদি গণনা করুন যা আপনি মডেল এবং আউটপুট দিয়ে রেফারেন্স হিসাবে শুরু করে বুঝতে চান:

# The model and output as reference
m1 <- lm(dist ~ speed, data = cars)
summary(m1)
summary.aov(m1) # To get the sums of squares and mean squares

স্কোয়ারের যোগফলগুলি মডেলের দিকে পৃথক ডেটার পয়েন্টের বর্গক্ষেত্রের দূরত্ব:

# Calculate sums of squares (total, residual and model)
y <- cars$dist
ybar <- mean(y)
ss.total <- sum((y-ybar)^2)
ss.total
ss.residual <- sum((y-m1$fitted)^2)
ss.residual
ss.model <- ss.total-ss.residual
ss.model

গড় স্কোয়ারগুলি হল স্বাধীনতার ডিগ্রি দ্বারা গড় স্কোয়ারগুলির যোগফল:

# Calculate degrees of freedom (total, residual and model)
n <- length(cars$speed)
k <- length(m1$coef) # k = model parameter: b0, b1
df.total <- n-1
df.residual <- n-k
df.model <- k-1

# Calculate mean squares (note that these are just variances)
ms.residual <- ss.residual/df.residual
ms.residual
ms.model<- ss.model/df.model
ms.model

আপনার প্রশ্নের আমার উত্তর:

চতুর্থাংশ 1:

  1. এটি আসলে এলএম লাইন থেকে পর্যবেক্ষণের মানগুলির গড় দূরত্ব?

RSEMSresidual

# Calculate residual standard error
res.se <- sqrt(ms.residual)
res.se  

SSresidualMSresidual SSresidualRSEমডেল থেকে পর্যবেক্ষণ করা ডেটার গড় দূরত্ব উপস্থাপন করে। স্বজ্ঞাতভাবে, এটি নিখুঁত ধারণা দেয় কারণ যদি দূরত্ব কম হয় তবে আপনার মডেল ফিটটি আরও ভাল।

Q2 এর:

  1. এখন আমি বিভ্রান্ত হয়ে পড়ছি কারণ যদি আরএসই আমাদের জানায় যে আমাদের পর্যবেক্ষণকৃত পয়েন্টগুলি রিগ্রেশন লাইন থেকে কতটা দূরে সরে যায় তবে কোনও কম আরএসই কমপক্ষে আমাদের বলছে "আপনার মডেল পর্যবেক্ষণ করা ডেটার পয়েন্টগুলির উপর ভিত্তি করে ভাল ফিট করছে" -> এইভাবে আমাদের মডেলগুলি কতটা ফিট করে , তাহলে আর স্কোয়ার এবং আরএসইয়ের মধ্যে পার্থক্য কী?

R2SSmodelSStotal

# R squared
r.sq <- ss.model/ss.total
r.sq

R2SStotalSSmodel

RSER2RSE

R2

চতুর্থাংশ 3:

  1. এটি কি সত্য যে আমরা একটি শক্তিশালী সম্পর্ক নির্দেশ করে এমন একটি এফ মান রাখতে পারি যা কোনও লাইন নয় যাতে আমাদের আরএসই বেশি হয় এবং আমাদের আর স্কোয়ার কম হয়

FMSmodelMSresidual

# Calculate F-value
F <- ms.model/ms.residual
F
# Calculate P-value
p.F <- 1-pf(F, df.model, df.residual)
p.F 

F

আপনার তৃতীয় প্রশ্নটি বোঝা কিছুটা কঠিন তবে আমি আপনার প্রদত্ত উদ্ধৃতিটির সাথে একমত।


3

(২) আপনি এটিকে সঠিকভাবে বুঝতে পারছেন, ধারণাটি নিয়ে আপনার খুব কষ্ট হচ্ছে।

R2

R2


0

ক্রিস উপরের উত্তরটি কেবলমাত্র পরিপূরক করতে:

এফ-স্ট্যাটিস্টিক হ'ল মডেল মানে বর্গাকার এবং অবশিষ্টাংশ বর্গাকার। স্টাটার মতো সফ্টওয়্যার, রিগ্রেশন মডেল লাগানোর পরে, এফ-স্ট্যাটিস্টিকের সাথে যুক্ত পি-ভ্যালু সরবরাহ করে। এটি আপনাকে নাল অনুমানটি পরীক্ষা করতে দেয় যে আপনার মডেলের সহগগুলি শূন্য। আপনি এটিকে "সামগ্রিকভাবে মডেলের পরিসংখ্যানগত তাত্পর্য হিসাবে" ভাবতে পারেন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.