আমার কাছে এক লাইনের সেরা ফিট রয়েছে। আমার এমন ডেটা পয়েন্ট দরকার যা আমার সেরা ফিটের লাইন পরিবর্তন করবে না


15

আমি ফিটিং লাইন সম্পর্কে একটি উপস্থাপনা দিচ্ছি। আমার একটি সাধারণ লিনিয়ার ফাংশন, y=1x+b । আমি ছড়িয়ে ছিটিয়ে থাকা ডেটা পয়েন্ট পাওয়ার চেষ্টা করছি যা আমি একটি স্কেটার প্লটে রাখতে পারি যা আমার লাইনটিকে একই সমীকরণের সাথে ফিট রাখবে।

আমি এই কৌশলটি আর বা এক্সেল উভয়ের মধ্যেই শিখতে চাই - যে কোনওটি সহজ।


1
এই উত্তরের আইটেম (2) তে কোনও সহগের (যা আপনার একটি বিশেষ কেস) সেটগুলির একাধিক রিগ্রেশন কেস নিয়ে আলোচনা করা হয়েছে । সেখানে পদক্ষেপগুলি অনুসরণ করা সহজ রিগ্রেশন কেস সমাধান করে। পদ্ধতিটি এমন কোনও প্যাকেজ সম্পর্কে কাজ করে যেখানে আপনি পছন্দসই বিতরণের এলোমেলো মানগুলি এবং সারণী মডেলগুলি ফিট করতে পারেন।
গ্লেন_বি

autodeskresearch.com/publications/samestats এর একটি দুর্দান্ত সাধারণীকরণ উপস্থাপন করে: সিমুলেটেড অ্যানেলিং স্ক্রেটারপ্লট তৈরি করতে ব্যবহৃত হয় যা কেবল সংক্ষিপ্ত পরিসংখ্যানগুলির পছন্দসই মানগুলিই রাখে না, তবে তাদের একটি নির্ধারিত আকারও রয়েছে (যেমন "ডেটাসরাস")। স্যাম স্ট্যাটস, বিভিন্ন গ্রাফ: সিমুলেটেড অ্যানিলিংয়ের মাধ্যমে বৈচিত্র্যময় উপস্থিতি এবং আইডেন্টিকাল স্ট্যাটিস্টিক্স সহ ডেটাসেট তৈরি করা শিরোনামে জাস্টিন মাতেজকা এবং জর্জ ফিটজমৌরাইসের এটি কাজ ।
whuber

উত্তর:


28

তাদের মধ্যে কমপক্ষে দুটি পৃথক হওয়া প্রদত্ত যে কোনও (xi) চয়ন করুন। একটি ইন্টারসেপ্ট β0 এবং ope β1 সেট করুন এবং সংজ্ঞা দিন

y0i=β0+β1xi.

এই ফিট পুরোপুরি। ফিট পরিবর্তন না করে আপনি y0 থেকে y=y0+ε কোনও ত্রুটি ভেক্টর ε=(εi) করে এটি সংশোধন করতে পারবেন তবে শর্ত দেওয়া যে এটি ভেক্টর x=(xi) এবং ধ্রুবক ভেক্টর (1,1,,1) । একটি সহজ উপায় যেমন একটি ত্রুটি প্রাপ্ত বাছাই হয় কোনো ভেক্টর e দিন ε regressing উপর অবশিষ্টাংশ হতে eবিরুদ্ধে x । নীচের কোডে, e0 এবং সাধারণ স্ট্যান্ডার্ড বিচ্যুতি সহ স্বতন্ত্র এলোমেলো স্বাভাবিক মানগুলির সেট হিসাবে উত্পন্ন হয় ।

তদ্ব্যতীত, আপনি এমনকি স্ক্রটারের পরিমাণও বেছে নিতে পারেন, সম্ভবত R2 হবে তা নির্ধারণ করে। লেটিং τ2=var(yi)=β12var(xi) , যারা অবশিষ্টাংশ rescale একটি ভ্যারিয়েন্স আছে

σ2=τ2(1/R21).

xi


উদাহরণ

আনসকম্বের চতুর্মুখী

আমরা খুব সহজেই প্রজনন করতে পারে Anscombe এর চতুষ্টয় চার গুণগতভাবে স্বতন্ত্র bivariate একই বর্ণনামূলক পরিসংখ্যান (দ্বিতীয় অর্ডার মাধ্যমে) থাকার ডেটাসেট করুন।

ব্যক্তিত্ব

কোডটি উল্লেখযোগ্যভাবে সহজ এবং নমনীয়।

set.seed(17)
rho <- 0.816                                             # Common correlation coefficient
x.0 <- 4:14
peak <- 10
n <- length(x.0)

# -- Describe a collection of datasets.
x <- list(x.0, x.0, x.0, c(rep(8, n-1), 19))             # x-values
e <- list(rnorm(n), -(x.0-peak)^2, 1:n==peak, rnorm(n))  # residual patterns
f <- function(x) 3 + x/2                                 # Common regression line

par(mfrow=c(2,2))
xlim <- range(as.vector(x))
ylim <- f(xlim + c(-2,2))
s <- sapply(1:4, function(i) {
  # -- Create data.
  y <- f(x[[i]])                                         # Model values
  sigma <- sqrt(var(y) * (1 / rho^2 - 1))                # Conditional S.D.
  y <- y + sigma * scale(residuals(lm(e[[i]] ~ x[[i]]))) # Observed values

  # -- Plot them and their OLS fit.
  plot(x[[i]], y, xlim=xlim, ylim=ylim, pch=16, col="Orange", xlab="x")
  abline(lm(y ~ x[[i]]), col="Blue")

  # -- Return some regression statistics.
  c(mean(x[[i]]), var(x[[i]]), mean(y), var(y), cor(x[[i]], y), coef(lm(y ~ x[[i]])))
})
# -- Tabulate the regression statistics from all the datasets.
rownames(s) <- c("Mean x", "Var x", "Mean y", "Var y", "Cor(x,y)", "Intercept", "Slope")
t(s)

(x,y)xe

সিমিউলেশন

Ryβ=(β0,β1)R20R21x

simulate <- function(x, beta, r.2) {
  sigma <- sqrt(var(x) * beta[2]^2 * (1/r.2 - 1))
  e <- residuals(lm(rnorm(length(x)) ~ x))
  return (y.0 <- beta[1] + beta[2]*x + sigma * scale(e))
}

(এটি এক্সেলের কাছে বন্দর করা কঠিন হবে না - তবে এটি কিছুটা বেদনাদায়ক))

(x,y)60 xβ=(1,1/2)11/2R2=0.5

ব্যক্তিত্ব

n <- 60
beta <- c(1,-1/2)
r.2 <- 0.5   # Between 0 and 1

set.seed(17)
x <- rnorm(n)

par(mfrow=c(1,4))
invisible(replicate(4, {
  y <- simulate(x, beta, r.2)
  fit <- lm(y ~ x)
  plot(x, y)
  abline(fit, lwd=2, col="Red")
}))

summary(fit)R2xi


1
খুব সুন্দর ধন্যবাদ! দুর্ভাগ্যক্রমে, আপনার দৃষ্টিভঙ্গি এই প্রশ্নের সাথে সাথে প্রযোজ্য বলে মনে হচ্ছে না: একই বাক্স এবং হুইস্কার প্লট (মানে / এসডি / মিডিয়ান / এমএডি / মিনিট / সর্বোচ্চ) সহ আনসকম্বের মতো ডেটাসেটগুলি , তাই না?
স্টিফান কোলাসা

@ স্টেফান আপনি সঠিক যে এটি নয়, কারণ এটি একটি অত্যন্ত অ-রৈখিক সমস্যা। এটি একইভাবে সমাধান করা যেতে পারে - মূলত একটি সীমাবদ্ধ অপ্টিমাইজেশান সমস্যার সম্ভাব্য সমাধানগুলি সন্ধানের মাধ্যমে - তবে একটি পৃথক অপ্টিমাইজেশন রুটিন প্রয়োজন এবং সমাধানগুলি গ্যারান্টিযুক্ত নয়।
whuber
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.