বিবরণী এবং প্রতিক্রিয়া ভেরিয়েবলগুলি রিগ্রেশনের আগে স্বতন্ত্রভাবে বাছাই করা হলে কী হবে?


302

ধরুন আমাদের কাছে এন পয়েন্ট সহ ডেটা সেট আছে । আমরা একটি রৈখিক রিগ্রেশনের সম্পাদন করতে চাই, কিন্তু প্রথমে আমরা সাজাতে x_i মূল্যবোধ ও Y_i মান একে অপরের স্বাধীনভাবে, ডাটা সেট বিরচন (x_i, Y_j) । নতুন ডেটা সেটটিতে রিগ্রেশনটির কোনও অর্থবহ ব্যাখ্যা আছে? এর কি কোনও নাম আছে?(Xi,Yi)nওয়াই আই ( এক্স আই , ওয়াই জে )XiYi(Xi,Yj)

আমি ভাবছি এটি একটি নির্বোধ প্রশ্ন তাই আমি ক্ষমা চেয়ে নিচ্ছি, আমি পরিসংখ্যান সম্পর্কে আনুষ্ঠানিকভাবে প্রশিক্ষণ পাইনি। আমার মনে এটি সম্পূর্ণভাবে আমাদের ডেটা ধ্বংস করে দেয় এবং প্রতিরোধটি অর্থহীন। তবে আমার ব্যবস্থাপক বলছেন যে তিনি যখন এটি করেন তখন "বেশিরভাগ সময় ভাল অবস্থার" পাওয়া যায় (এখানে "আরও ভাল" এর অর্থ আরও ভবিষ্যদ্বাণীমূলক)। আমার মনে হচ্ছে সে নিজেকে ফাঁকি দিচ্ছে।

সম্পাদনা: আপনার সুন্দর এবং ধৈর্যশীল উদাহরণগুলির জন্য আপনাকে ধন্যবাদ। আমি @ RUser4512 এবং @ গুং দ্বারা উদাহরণগুলি তাকে দেখিয়েছি এবং তিনি দৃa় থাকেন। সে বিরক্ত হয়ে যাচ্ছে এবং আমি ক্লান্ত হয়ে পড়ছি। আমি ক্রেস্টফ্যালেন অনুভব করি। আমি সম্ভবত খুব শীঘ্রই অন্যান্য কাজ সন্ধান শুরু করব।


120
তবে আমার ব্যবস্থাপক বলেছেন যে তিনি যখন এটি করেন তখন তিনি বেশিরভাগ সময় "আরও ভাল অবস্থার" পান। ওহ god
শ্বর

56
সেখানে অবশ্যই করার কোনো কারণ আপনি বিব্রত বোধ করুন!
জেক ওয়েস্টফল

36
"বিজ্ঞান আমরা যা হতে চাই তা তাই হয়।" - লিও স্পেসম্যান।
সাইকোরাক্স

52
এই ধারণার সাথে আমার আরও একটি প্রতিযোগিতার মুখোমুখি হতে হয়েছে: যদি আপনার নমুনা ছোট হয়, কেবল একই ডেটার বেশ কয়েকটি অনুলিপি সহ এটি সজ্জিত করুন।
নিক কক্স

47
আপনার বসকে আপনার উচিত আরও ভাল ধারণা should প্রকৃত ডেটা ব্যবহার না করে কেবল নিজের তৈরি করুন কারণ এটি মডেল করা আরও সহজ হবে।
dsaxton

উত্তর:


147

আমি নিশ্চিত না যে আপনার বস "আরও ভবিষ্যদ্বাণীপূর্ণ" এর অর্থ কী বলে। অনেক লোক ভুলভাবে বিশ্বাস করে যে লো- মানগুলি একটি আরও ভাল / আরও ভবিষ্যদ্বাণীমূলক মডেল। এটি অগত্যা সত্য নয় (এটি পয়েন্টে কেস হওয়া)। তবে স্বতন্ত্রভাবে উভয় ভেরিয়েবলকে আগেভাগে বাছাই করা কম ভ্যালুয়ের গ্যারান্টি দেবে। অন্যদিকে, আমরা কোনও মডেলের ভবিষ্যদ্বাণীগুলি একই প্রক্রিয়া দ্বারা উত্পন্ন নতুন ডেটার সাথে তুলনা করে ভবিষ্যদ্বাণীমূলক নির্ভুলতার মূল্যায়ন করতে পারি। আমি নীচে এটি একটি সাধারণ উদাহরণে (কোড করে ) দিয়েছি । পিppR

options(digits=3)                       # for cleaner output
set.seed(9149)                          # this makes the example exactly reproducible

B1 = .3
N  = 50                                 # 50 data
x  = rnorm(N, mean=0, sd=1)             # standard normal X
y  = 0 + B1*x + rnorm(N, mean=0, sd=1)  # cor(x, y) = .31
sx = sort(x)                            # sorted independently
sy = sort(y)
cor(x,y)    # [1] 0.309
cor(sx,sy)  # [1] 0.993

model.u = lm(y~x)
model.s = lm(sy~sx)
summary(model.u)$coefficients
#             Estimate Std. Error t value Pr(>|t|)
# (Intercept)    0.021      0.139   0.151    0.881
# x              0.340      0.151   2.251    0.029  # significant
summary(model.s)$coefficients
#             Estimate Std. Error t value Pr(>|t|)
# (Intercept)    0.162     0.0168    9.68 7.37e-13
# sx             1.094     0.0183   59.86 9.31e-47  # wildly significant

u.error = vector(length=N)              # these will hold the output
s.error = vector(length=N)
for(i in 1:N){
  new.x      = rnorm(1, mean=0, sd=1)   # data generated in exactly the same way
  new.y      = 0 + B1*x + rnorm(N, mean=0, sd=1)
  pred.u     = predict(model.u, newdata=data.frame(x=new.x))
  pred.s     = predict(model.s, newdata=data.frame(x=new.x))
  u.error[i] = abs(pred.u-new.y)        # these are the absolute values of
  s.error[i] = abs(pred.s-new.y)        #  the predictive errors
};  rm(i, new.x, new.y, pred.u, pred.s)
u.s = u.error-s.error                   # negative values means the original
                                        # yielded more accurate predictions
mean(u.error)  # [1] 1.1
mean(s.error)  # [1] 1.98
mean(u.s<0)    # [1] 0.68


windows()
  layout(matrix(1:4, nrow=2, byrow=TRUE))
  plot(x, y,   main="Original data")
  abline(model.u, col="blue")
  plot(sx, sy, main="Sorted data")
  abline(model.s, col="red")
  h.u = hist(u.error, breaks=10, plot=FALSE)
  h.s = hist(s.error, breaks=9,  plot=FALSE)
  plot(h.u, xlim=c(0,5), ylim=c(0,11), main="Histogram of prediction errors",
       xlab="Magnitude of prediction error", col=rgb(0,0,1,1/2))
  plot(h.s, col=rgb(1,0,0,1/4), add=TRUE)
  legend("topright", legend=c("original","sorted"), pch=15, 
         col=c(rgb(0,0,1,1/2),rgb(1,0,0,1/4)))
  dotchart(u.s, color=ifelse(u.s<0, "blue", "red"), lcolor="white",
           main="Difference between predictive errors")
  abline(v=0, col="gray")
  legend("topright", legend=c("u better", "s better"), pch=1, col=c("blue","red"))

এখানে চিত্র বর্ণনা লিখুন

উপরের বাম প্লটটি মূল ডেটা দেখায়। তার মাঝে কিছু সম্পর্ক নেই এবং (যেমন।, পারস্পরিক সম্পর্ক সম্পর্কে ।) উপরের ডান চক্রান্ত দেখায় তথ্য পরে স্বাধীনভাবে উভয় ভেরিয়েবল বাছাই কেমন দেখায় তা। আপনি সহজেই দেখতে পারেন যে পারস্পরিক সম্পর্কের শক্তি যথেষ্ট পরিমাণে বৃদ্ধি পেয়েছে (এটি এখন প্রায় )। তবে, নিম্ন প্লটগুলিতে আমরা দেখতে পাই যে মূল (অরসোর্টড) ডেটা প্রশিক্ষিত মডেলটির জন্য ভবিষ্যদ্বাণীমূলক ত্রুটির বিতরণ কাছাকাছি is মূল ডেটা ব্যবহার করা মডেলটির গড় পরিপূর্ণ ভবিষ্যদ্বাণীমূলক ত্রুটিটি , অন্যদিকে সাজানো ডেটাতে প্রশিক্ষিত মডেলটির গড় পরিপূর্ণ ভবিষ্যদ্বাণীমূলক ত্রুটিটিy .31 .99 0 1.1 1.98 y 68 %xy.31.9901.11.98প্রায় দ্বিগুণ হিসাবে বড়। তার অর্থ, সাজানো ডেটা মডেলের ভবিষ্যদ্বাণীগুলি সঠিক মান থেকে অনেক বেশি further নীচের ডান কোয়াড্রেন্টের প্লটটি একটি বিন্দু প্লট। এটি মূল ডেটা এবং সাজানো ডেটা সহ ভবিষ্যদ্বাণীমূলক ত্রুটির মধ্যে পার্থক্য প্রদর্শন করে। এটি আপনাকে প্রতিটি নতুন পর্যবেক্ষণের অনুকরণের জন্য দুটি অনুরূপ পূর্বাভাস তুলনা করতে দেয়। বামদিকে নীল বিন্দুগুলি এমন সময়গুলি যখন আসল তথ্যগুলি নতুন ভ্যালুয়ের কাছাকাছি থাকে এবং ডানদিকে লাল বিন্দুগুলি এমন সময় হয় যখন সাজানো ডেটা আরও ভাল পূর্বাভাস দেয়। সেই সময়ের আসল ডেটা সম্পর্কে প্রশিক্ষিত মডেল থেকে আরও সঠিক ভবিষ্যদ্বাণী ছিল । y68%


যে ডিগ্রিতে বাছাইয়ের ফলে এই সমস্যাগুলি দেখা দেয় তা হ'ল আপনার ডেটাতে বিদ্যমান লিনিয়ার সম্পর্কের একটি কাজ। তাহলে মধ্যে পারস্পরিক এবং ছিল ইতিমধ্যে বাছাই কোনো প্রভাব থাকবে এবং এইভাবে ক্ষতিকারক না। অন্যদিকে, যদি পারস্পরিক সম্পর্ক হয়y 1.0 - 1.0xy1.01.0, বাছাই করা সম্পর্কটিকে পুরোপুরি বিপরীত করবে, মডেলটিকে যতটা সম্ভব অসম্পূর্ণ করে তুলবে। যদি ডেটাটি মূলত সম্পূর্ণরূপে অসম্পৃক্ত থাকে তবে বাছাইয়ের ফলে একটি অন্তর্বর্তী, তবে এখনও বেশ বড়, ফলস্বরূপ মডেলের ভবিষ্যদ্বাণীপূর্ণ নির্ভুলতার উপর ক্ষতিকারক প্রভাব রয়েছে। যেহেতু আপনি উল্লেখ করেছেন যে আপনার ডেটা সাধারণত পারস্পরিক সম্পর্কযুক্ত, তাই আমি সন্দেহ করি যে এই পদ্ধতির অভ্যন্তরীণ ক্ষতির বিরুদ্ধে কিছু সুরক্ষা সরবরাহ করেছে। তবুও, প্রথমে বাছাই করা অবশ্যই ক্ষতিকারক। এই সম্ভাবনাগুলি অন্বেষণ করতে, আমরা কেবলমাত্র B1(পুনরুত্পাদনযোগ্যতার জন্য একই বীজ ব্যবহার করে) এর জন্য বিভিন্ন মান সহ উপরের কোডটি আবার চালাতে পারি এবং আউটপুট পরীক্ষা করতে পারি:

  1. B1 = -5:

    cor(x,y)                            # [1] -0.978
    summary(model.u)$coefficients[2,4]  # [1]  1.6e-34  # (i.e., the p-value)
    summary(model.s)$coefficients[2,4]  # [1]  1.82e-42
    mean(u.error)                       # [1]  7.27
    mean(s.error)                       # [1] 15.4
    mean(u.s<0)                         # [1]  0.98
    
  2. B1 = 0:

    cor(x,y)                            # [1] 0.0385
    summary(model.u)$coefficients[2,4]  # [1] 0.791
    summary(model.s)$coefficients[2,4]  # [1] 4.42e-36
    mean(u.error)                       # [1] 0.908
    mean(s.error)                       # [1] 2.12
    mean(u.s<0)                         # [1] 0.82
    
  3. B1 = 5:

    cor(x,y)                            # [1] 0.979
    summary(model.u)$coefficients[2,4]  # [1] 7.62e-35
    summary(model.s)$coefficients[2,4]  # [1] 3e-49
    mean(u.error)                       # [1] 7.55
    mean(s.error)                       # [1] 6.33
    mean(u.s<0)                         # [1] 0.44
    

12
আপনার উত্তর একটি খুব ভাল পয়েন্ট তোলে, কিন্তু সম্ভবত হিসাবে পরিষ্কার করা উচিত ছিল এবং উচিত। এটি কোনও লিপারসনের কাছে স্পষ্টতই স্পষ্ট নয় (যেমন, ওপি'র পরিচালক) এই সমস্ত প্লটগুলি শেষে (আর কোডের কিছু মনে করবেন না) আসলে কী দেখায় এবং বোঝায়। আইএমও, আপনার উত্তরটি সত্যই একটি ব্যাখ্যামূলক অনুচ্ছেদ বা দুটি ব্যবহার করতে পারে।
ইলমারি করোনেন

3
আপনার মন্তব্যের জন্য ধন্যবাদ, @ ইলমারি কারোনেন। আপনি কি জিনিস যুক্ত করতে পরামর্শ দিতে পারেন? আমি কোডটি যথাসম্ভব স্ব-ব্যাখ্যামূলক করার চেষ্টা করেছি এবং এটির জন্য ব্যাপক মন্তব্য করেছি। তবে আমি আর এই জিনিসগুলি এমন কোনও ব্যক্তির চোখের সাথে দেখতে পাব না যারা এই ডাব্লু / এই বিষয়গুলির সাথে পরিচিত নয়। নীচে প্লটগুলি বর্ণনা করতে আমি কিছু পাঠ্য যুক্ত করব। আপনি যদি অন্য কিছু ভাবতে পারেন তবে দয়া করে আমাকে জানান।
গুং

13
+1 এটি এখনও প্রস্তাবিত পরিস্থিতি সম্বোধন করে এমন একমাত্র উত্তর: যখন দুটি ভেরিয়েবল ইতিমধ্যে কিছু ইতিবাচক সংঘ প্রদর্শন করে, তবুও স্বতঃ সজ্জিত মানগুলিকে পুনরায় চাপ দেওয়া এটি একটি ত্রুটি। অন্যান্য সমস্ত উত্তর ধরে নিচ্ছে যে কোনও সংঘবদ্ধতা নেই বা এটি আসলে নেতিবাচক। যদিও তারা ভাল উদাহরণ, তারা প্রয়োগ না করায় তারা বিশ্বাসযোগ্য হবে না। যদিও আমাদের এখনও অভাব রয়েছে তা হ'ল এখানে অনুকরণকারীগুলির মতো ডেটার স্তরের স্তরের স্বজ্ঞাত বাস্তব বিশ্বের উদাহরণ যেখানে ভুলের প্রকৃতিটি বিব্রতকররূপে সুস্পষ্ট।
whuber

8
গোঁড়া দ্বারা
চালিত

@ ডিএসএক্সটন, আমি <-মাঝে মাঝে ব্যবহার করি তবে সিভিতে আমার লক্ষ্যটি হ'ল সম্ভব সিউডোকোডের কাছাকাছি আর কোডটি লেখা যাতে এটি ডাব্লু / আর পরিচিত না এমন লোকদের পক্ষে আরও বেশি পাঠযোগ্য, =একটি অ্যাসাইনমেন্ট অপারেটর হিসাবে প্রোগ্রামিং ভাষার মধ্যে বেশ সার্বজনীন is ।
গাং

103

আপনি যদি আপনার বসকে বোঝাতে চান তবে আপনি সিমুলেটেড, এলোমেলো, স্বতন্ত্র ডেটা দিয়ে কী ঘটছে তা দেখাতে পারেন । আর সহ:x,yএখানে চিত্র বর্ণনা লিখুন

n <- 1000

y<- runif(n)
x <- runif(n)

linearModel <- lm(y ~ x)


x_sorted <- sort(x)
y_sorted <- sort(y)

linearModel_sorted <- lm(y_sorted ~ x_sorted)

par(mfrow = c(2,1))
plot(x,y, main = "Random data")
abline(linearModel,col = "red")


plot(x_sorted,y_sorted, main = "Random, sorted data")
abline(linearModel_sorted,col = "red")

স্পষ্টতই, বাছাই করা ফলাফলগুলি অনেক ভাল রিগ্রেশন দেয়। যাইহোক, ডেটা উত্পন্ন করার জন্য ব্যবহৃত প্রক্রিয়াটি (দুটি স্বতন্ত্র নমুনা) দেওয়ার পরে একে অপরকে পূর্বাভাস দেওয়ার কোনও সম্ভাবনা নেই।


8
এটা প্রায় সব ইন্টারনেট বিজ্ঞাপন :) "আগে বনাম পরে" মত হল
টিম

এটি একটি ভাল উদাহরণ, তবে এটি তাকে বিশ্বাস করবে বলে মনে হয় না কারণ বাছাইয়ের আগে আমাদের ডেটাতে ইতিবাচক পারস্পরিক সম্পর্ক রয়েছে। কেবল "বাছাই করে" সম্পর্কটিকে বাছাই করা (কোনও ভুল হলেও)।
নির্বিচার ব্যবহারকারী

17
@ আরবিটারিয়্যুউজার: ভাল, সাজানো ডেটা সর্বদা একটি ইতিবাচক (ভাল, অ-নেতিবাচক) পারস্পরিক সম্পর্ক দেখায়, মূল ডেটার সাথে সম্পর্ক যা-ই হোক না কেন। আপনি যদি জানেন যে মূল ডেটার সাথে সর্বদা একটি ইতিবাচক পারস্পরিক সম্পর্ক থাকে তবে এটি "দুর্ঘটনাক্রমে সঠিক" - তবে তারপরেও, এমনকি যদি আপনি ইতিমধ্যে এটি এখনও উপস্থিত এবং ইতিবাচকভাবে জানেন তবে পারস্পরিক সম্পর্কের জন্য চেক করা কেন বিরক্ত করবেন? আপনার ম্যানেজার যে পরীক্ষাটি চালাচ্ছেন তা হ'ল "বায়ু মানের আবিষ্কারক" এর মতো যা সর্বদা "শ্বাস প্রশ্বাসের বায়ু সনাক্ত করা" বলে থাকে - এটি নিখুঁতভাবে কাজ করে, যতক্ষণ আপনি যেখানেই শ্বাস-প্রশ্বাসের বায়ু নেই সেখানে কোথাও নিয়ে যান না।
ইলমারি করোনেন

2
@ আরবিটারিয়্যুয়েসার আরও একটি উদাহরণ যা আপনাকে আরও প্ররোচিত করতে পারে তা হল x = 0: 50 এবং y = 0: -50, slাল -1 সহ একটি নিখুঁত রেখা। যদি আপনি এগুলি সাজান, তবে সম্পর্কটি opeালু 1 সহ একটি নিখুঁত লাইনে রূপান্তরিত করে If ঠিক ভুল জিনিস করছেন।
জন রাউসার

99

আপনার স্বজ্ঞাততাটি সঠিক: স্বতন্ত্রভাবে সাজানো তথ্যের কোনও নির্ভরযোগ্য অর্থ নেই কারণ পর্যবেক্ষিত সম্পর্কটি কী তা নয় বরং ইনপুট এবং আউটপুটগুলি একে অপরের সাথে এলোমেলোভাবে ম্যাপ করা হচ্ছে।

বাছাই করা ডেটাতে রিগ্রেশনটি দেখতে সুন্দর লাগবে এমন একটি (ভাল) সুযোগ রয়েছে তবে এটি প্রসঙ্গে অর্থহীন।

স্বজ্ঞাত উদাহরণ: ধরুন কিছু জনসংখ্যার জন্য একটি ডেটা সেট । অযৌক্তিক উপাত্তের গ্রাফটি সম্ভবত লোগারিথমিক বা পাওয়ার ফাংশনের মতো দেখায়: বাচ্চাদের দ্রুত বর্ধনের হার যা পরবর্তী কৈশোরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে বেড়ে যায় এবং "প্রাপ্তবয়স্কদের জন্য" তরুণ প্রাপ্তবয়স্ক বা তার চেয়ে বেশি বয়স্কদের সর্বাধিক উচ্চতার কাছে যায়।(X=age,Y=height)

যদি আমরা আরোহণ ক্রম অনুসারে বাছাই করি তবে গ্রাফটি প্রায় লিনিয়ার হবে be সুতরাং, পূর্বাভাস ফাংশনটি হ'ল লোকেরা তাদের সমগ্র জীবনের জন্য লম্বা হয়। আমি ভবিষ্যদ্বাণী করা অ্যালগরিদমে টাকা বাজি ধরব না। x,y


25
+ 1 - তবে আমি "মূলত" ফেলে দেব এবং "অর্থহীন" পুনরায় জোর দেব।
হোবার

12
নোট করুন যে ওপিতে ডেটা বদলানোর বিপরীতে স্বাধীনভাবে বাছাই করা বোঝায় । এটি একটি সূক্ষ্ম তবে গুরুত্বপূর্ণ পার্থক্য কারণ এটি প্রদত্ত ক্রিয়াকলাপ প্রয়োগের পরে পর্যবেক্ষিত "সম্পর্ক" কেউ কী দেখতে পাবে তার সাথে সম্পর্কিত।
কার্ডিনাল

3
আপনি যে উদাহরণটি যুক্ত করেছেন তাতে আমি বিভ্রান্ত হয়ে পড়েছি। যদি বয়স হয় এবং এর উচ্চতা হয় তবে উভয় ভেরিয়েবল ইতিমধ্যে অর্ডার করা হয়েছে: কারও বয়স বা উচ্চতা কখনই হ্রাস পায় না। সুতরাং বাছাইয়ের কোনও প্রভাব নেই। সিসি @ জ্যাকওয়েস্টফল, মন্তব্য করেছিলেন যে তিনি এই উদাহরণটি পছন্দ করেছেন। তুমি কি ব্যাখ্যা করতে পারো? xy
অ্যামিবা

12
@ আমেবা তুচ্ছ তথ্য সেট: গড় কিশোর, 30-এর মাঝামাঝি এনবিএ কেন্দ্র, বয়স্ক গড় মহিলা। পূর্বাভাস অ্যালগোরিদম বাছাই করার পরে যে সবচেয়ে প্রাচীনতম হয়।
d0rmLIF

1
@ আমেবা আমি দেখছি কীভাবে এর ব্যাখ্যা দেওয়া যেতে পারে, আমি স্পষ্ট করে বলব।
d0rmLife

40

আসলে, আসুন এটি সত্যই সুস্পষ্ট এবং সহজ করা যাক। ধরুন আমি একটি পরীক্ষা চালিয়েছি যেখানে আমি একটি প্রমিত কন্টেইনারে 1 লিটার জল পরিমাপ করি এবং আমি থাকা এর পরিমাণ কতটুকু সময় ফাংশন হিসাবে , বাষ্পীভবনের কারণে পানির ক্ষয় হচ্ছে:Viti

এখন ধরা যাক আমি যথাক্রমে ঘন্টা এবং লিটারে নিম্নলিখিত পরিমাপগুলি : এটি বেশ স্পষ্টতই নিখুঁতভাবে সম্পর্কিত (এবং অনুমান) ডেটা। তবে আমি যদি সময় এবং ভলিউম পরিমাপগুলি রাখি তবে আমি এবং এই সাজানো ডেটা সেট থেকে উপসংহারটি হ'ল সময় বাড়ার সাথে সাথে পানির পরিমাণ বেড়ে যায় এবং আরও 1 লিটার জল থেকে শুরু হয়ে আপনি 5 ঘন্টা অপেক্ষার পরে পান করতে পারবেন, 1 লিটারেরও বেশি জল। তা কি লক্ষণীয় নয়? মূল উপাত্ত যা বলেছিল তার উপসংহারই কেবল তার বিপরীতে নয়, এটিও প্রস্তাব করে যে আমরা নতুন পদার্থবিজ্ঞান আবিষ্কার করেছি! (ti,Vi)

(0,1.0),(1,0.9),(2,0.8),(3,0.7),(4,0.6),(5,0.5).
(0,0.5),(1,0.6),(2,0.7),(3,0.8),(4,0.9),(5,1.0).

5
সুন্দর স্বজ্ঞাত উদাহরণ! শেষ লাইন বাদে। মূল ডেটা সহ আমরা সময়ের পরে একটি নেতিবাচক ভলিউম পাই যা এটি ঠিক নতুন পদার্থবিজ্ঞানেরও। আপনি কখনই কোনও রিগ্রেশনকে সত্যিকার অর্থে এক্সপ্লোলেট করতে পারবেন না।
জংসমা

22

এটি একটি আসল শিল্প এবং কিছু লোককে তাদের উপায়গুলির ত্রুটি সম্পর্কে বোঝাতে সক্ষম হতে মনোবিজ্ঞানের একটি সত্য উপলব্ধি গ্রহণ করে। উপরের সমস্ত দুর্দান্ত উদাহরণগুলি ছাড়াও, একটি দরকারী কৌশলটি কখনও কখনও দেখানো হয় যে কোনও ব্যক্তির বিশ্বাস তার নিজের সাথে অসঙ্গতি সৃষ্টি করে। অথবা এই পদ্ধতির চেষ্টা করুন। আপনার বস সম্পর্কে দৃ bo়ভাবে বিশ্বাসযোগ্য এমন কিছু সন্ধান করুন যেমন লোকেরা কীভাবে টাস্কে সম্পাদন করে Y এর কতগুলি গুণাবলী রয়েছে তার সাথে তার কোনও সম্পর্ক নেই। আপনার বসের নিজস্ব পদ্ধতির ফলে কীভাবে এক্স এবং ওয়াইয়ের মধ্যে দৃ association় সংঘর্ষের পরিণতি ঘটবে তা দেখান political রাজনৈতিক / বর্ণ / ধর্মীয় বিশ্বাসকে পুঁজি করুন।

মুখের অবৈধতা যথেষ্ট হওয়া উচিত ছিল। কি জেদী বস। এর মধ্যে আরও ভাল কাজের সন্ধান করুন। শুভকামনা।


12

আরও একটি উদাহরণ। কল্পনা করুন যে আপনার দুটি পরিবর্তনশীল রয়েছে, একটি চকোলেট খাওয়ার সাথে যুক্ত এবং দ্বিতীয়টি সামগ্রিক কল্যাণে সংযুক্ত। আপনার দুটির নমুনা রয়েছে এবং আপনার ডেটা নীচের মত দেখাচ্ছে:

chocolateno happinessno chocolatehappiness

আপনার নমুনার ভিত্তিতে চকোলেট এবং সুখের সম্পর্ক কী? এবং এখন, কোনও একটি কলামের ক্রম পরিবর্তন করুন - এই অপারেশনের পরে কী সম্পর্ক?

একই সমস্যা অন্যভাবে যোগাযোগ করা যেতে পারে। বলুন, আপনার বেশ কয়েকটি সংখ্যক কেস সহ একটি বড় নমুনা রয়েছে এবং আপনি দুটি ধ্রুবক ভেরিয়েবল পরিমাপ করেন: প্রতিদিন চকোলেট খরচ (গ্রামে) এবং সুখ (কল্পনা করুন যে এটির পরিমাপ করার কোনও উপায় আছে)। আপনি আগ্রহী হলে যদি তারা সম্পর্কিত হয় আপনি কোরিলেশন পরিমাপ করতে পারেন অথবা রৈখিক রিগ্রেশনের মডেল ব্যবহার করেন, কিন্তু কখনও কখনও এই ক্ষেত্রে মানুষ কেবল এক পরিবর্তনশীল dichotomize এবং সঙ্গে একটি গোষ্ঠীবদ্ধ ফ্যাক্টর হিসাবে এটি ব্যবহার -test (এই হল না সবচেয়ে ভাল এবং নাN ttপ্রস্তাবিত পদ্ধতির, তবে আমাকে এটি উদাহরণ হিসাবে ব্যবহার করতে দিন)। সুতরাং আপনি আপনার নমুনাটিকে দুটি গ্রুপে বিভক্ত করুন: উচ্চ চকোলেট খরচ সহ এবং কম চকোলেট খরচ সহ। এর পরে, আপনি উভয় গ্রুপের গড় সুখের তুলনা করেন। এখন ভাবুন আপনি কীভাবে সুখের পরিবর্তনশীলকে গ্রুপিং ভেরিয়েবলের স্বতন্ত্র অনুসারে বাছাই করে দেখবেন: উচ্চ সুখের সমস্ত ক্ষেত্রে উচ্চ চকোলেট গ্রাহক গ্রুপে যেতে হবে, এবং সমস্ত কম সুখের ঘটনাগুলি কম চকোলেট গ্রাহক গ্রুপে শেষ হবে - যেমন অনুমানের পরীক্ষা হবে কোন সংবেদন আছে? এই সহজে রিগ্রেশন মধ্যে extrapolated করা যাবে যদি আপনি কল্পনা আপনি আছেন তারা চকলেট খরচ জন্য এর পরিবর্তে দুটি গ্রুপ যেমন গোষ্ঠী, প্রতিটি অংশগ্রহণকারী জন্য এক (যে লক্ষ্য -test সম্পর্কযুক্ত রিগ্রেশন করার জন্য)।Nt

দ্বিবিভক্ত রিগ্রেশন বা পারস্পরিক সম্পর্কের ক্ষেত্রে আমরা প্রতিটি তম মানের এবং তৃতীয় মানের মধ্যে জুটিযুক্ত সম্পর্কগুলিতে আগ্রহী , পর্যবেক্ষণের ক্রম পরিবর্তন করা এই সম্পর্কটিকে নষ্ট করে দেয়। যদি আপনি উভয় ভেরিয়েবলগুলি সাজান যে এটি সর্বদা তাদের একে অপরের সাথে আরও ইতিবাচক সম্পর্কযুক্ত হতে পরিচালিত করে যেহেতু সর্বদা এটির ক্ষেত্রে হবে যে যদি কোনও ভেরিয়েবল বৃদ্ধি পায় তবে অন্যটিও বৃদ্ধি পায় (কারণ সেগুলি সাজানো হয়!)।X i YiXiY

লক্ষ্য করুন যে কখনও কখনও আমরা আসলে মামলার ক্রম পরিবর্তন করতে আগ্রহী, আমরা পুনর্নির্মাণের পদ্ধতিতে এটি করি । উদাহরণস্বরূপ, আমরা ইচ্ছাকৃতভাবে পর্যবেক্ষণগুলি একাধিকবার বদলাতে পারি যাতে আমাদের ডেটা নাল বিতরণ সম্পর্কে কিছু জানতে (আমাদের সাথে কোনও সম্পর্কযুক্ত সম্পর্ক না থাকলে আমাদের ডেটা কেমন দেখায়) এবং পরবর্তী আমরা তুলনা করতে পারি যদি আমাদের আসল তথ্যগুলি এলোমেলোভাবে কোনওভাবেই ভাল হয় তবে অদলবদল করেছে। আপনার ব্যবস্থাপক যা করেন তা সম্পূর্ণ বিপরীত - তিনি ইচ্ছাকৃতভাবে পর্যবেক্ষণগুলিতে কৃত্রিম কাঠামো তৈরি করতে বাধ্য করেন যেখানে কোনও কাঠামো ছিল না, যা বোগাস পারস্পরিক সম্পর্কের দিকে পরিচালিত করে।


8

একটি সহজ উদাহরণ যা সম্ভবত আপনার পরিচালক বুঝতে পারে:

ধরা যাক আপনার কাছে কয়েন ওয়াই এবং কয়েন এক্স রয়েছে এবং আপনি সেগুলির প্রত্যেককে 100 বার ফ্লিপ করেন। তারপরে আপনি ভবিষ্যদ্বাণী করতে চান যে কয়েন এক্স (চতুর্থ) এর সাথে মাথা পাওয়ার ফলে কয়েন ওয়াই (ডিভি) দিয়ে মাথা পাওয়ার সম্ভাবনা বাড়তে পারে।

বাছাই ছাড়াই, সম্পর্কটি কোনওটিই হবে না, কারণ কুইন এক্স এর ফলাফলটি কয়েন ওয়াইয়ের ফলাফলকে প্রভাবিত করবে না। বাছাইয়ের সাথে, সম্পর্কটি প্রায় নিখুঁত হবে।

আপনি যদি স্রেফ অন্য কোনও মুদ্রা দিয়ে মাথা ফ্লিপ করে থাকেন তবে আপনার মুদ্রা ফ্লিপে মাথা নেওয়ার ভাল সম্ভাবনা রয়েছে তা এই উপসংহারে কীভাবে আসে?


1
যে কোনও মুদ্রার জন্য আপনি যে অনুমান করছেন তা অনুবাদ প্রয়োজন। (আমি জানি এটি একেবারে তুচ্ছ আপত্তি, এবং যে কোনও সমস্যা সমাধান করা সহজ, তবে এটি মাঝে মাঝে জোর দেওয়া উচিত যে এটি একটি আন্তর্জাতিক ফোরাম।)
নিক কক্স

8

এই কৌশলটি আসলেই আশ্চর্যজনক। আমি এমন সব ধরণের সম্পর্কের সন্ধান করছি যা আমি কখনই সন্দেহ করি না। উদাহরণস্বরূপ, আমি সন্দেহ করি না যে পাওয়ারবল লটারিতে যে নম্বরগুলি প্রদর্শিত হয়, যা এটি দাবি করা হয় তা এলোমেলো, আসলে একই দিনে অ্যাপল স্টকের খোলার মূল্যের সাথে খুব বেশি সম্পর্কযুক্ত! লোকেরা, আমি মনে করি আমরা বড় সময় নগদ করতে চলেছি। :)

> powerball_last_number = scan()
1: 69 66 64 53 65 68 63 64 57 69 40 68
13: 
Read 12 items
> #Nov. 18, 14, 11, 7, 4
> #Oct. 31, 28, 24, 21, 17, 14, 10
> #These are powerball dates.  Stock opening prices 
> #are on same or preceding day.
> 
> appl_stock_open = scan()
1: 115.76  115.20 116.26  121.11  123.13 
6: 120.99  116.93  116.70  114.00  111.78
11: 111.29  110.00
13: 
Read 12 items
> hold = lm(appl_stock_open ~ powerball_last_number)
> summary(hold)


Coefficients:
                       Estimate Std. Error t value Pr(>|t|)    
(Intercept)           112.08555    9.45628  11.853 3.28e-07 ***
powerball_last_number   0.06451    0.15083   0.428    0.678    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 4.249 on 10 degrees of freedom
Multiple R-squared:  0.01796,   Adjusted R-squared:  -0.08024 
F-statistic: 0.1829 on 1 and 10 DF,  p-value: 0.6779

হুম, মনে হয় না এর সাথে উল্লেখযোগ্য সম্পর্ক রয়েছে। তবে নতুন, উন্নত কৌশলটি ব্যবহার করুন:

> 
> vastly_improved_regression = lm(sort(appl_stock_open)~sort(powerball_last_number))
> summary(vastly_improved_regression)

Coefficients:
                            Estimate Std. Error t value Pr(>|t|)    
(Intercept)                 91.34418    5.36136  17.038 1.02e-08 ***
sort(powerball_last_number)  0.39815    0.08551   4.656    9e-04 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.409 on 10 degrees of freedom
Multiple R-squared:  0.6843,    Adjusted R-squared:  0.6528 
F-statistic: 21.68 on 1 and 10 DF,  p-value: 0.0008998

দ্রষ্টব্য: এটি কোনও গুরুতর বিশ্লেষণ বোঝাতে নয়। কেবলমাত্র আপনার ম্যানেজারকে দেখান যে তারা উভয়কে বাছাই করলে তারা যে কোনও দুটি ভেরিয়েবল উল্লেখযোগ্যভাবে সম্পর্কিত করতে পারে।


6

এখানে ভাল পাল্টা উদাহরণ প্রচুর। আমাকে কেবল সমস্যার হৃদয় সম্পর্কে একটি অনুচ্ছেদ যুক্ত করতে দিন।

আপনি মধ্যে একটি পারস্পরিক সম্পর্ক খুঁজছেন এবং । এটার মানে হল যে এবং উভয় একই জন্য বড় হতে থাকে এবং একই জন্য ছোট । সুতরাং একটি পারস্পরিক সম্পর্ক হ'ল সাথে যুক্ত একটি সম্পত্তি , সাথে , এবং আরও অনেক কিছু। এবং স্বাধীনভাবে বাছাই করার মাধ্যমে আপনি (বেশিরভাগ ক্ষেত্রে) জুটি হারাবেন। এখন আর করা হবে না । সুতরাং বাছাই করা মানগুলির পারস্পরিক সম্পর্ক এবং মধ্যে সংযোগ পরিমাপ করবে নাXiYiXYiiX1Y1X2Y2XYX1Y1X1Y1 যে আপনি পরে

আসলে, কেন এটি "কাজ করে" কেন সে সম্পর্কে একটি অনুচ্ছেদ যুক্ত করি।

আপনি উভয় তালিকাগুলি বাছাই করার সময়, নতুন নতুন বাছাই করা তালিকাটিকে , , এবং এ জাতীয় বলা হবে, ক্ষুদ্রতম মান হবে এবং হবে সর্বনিম্ন Y মান। হবে বৃহত্তম এবং বৃহত্তম । তারপরে আপনি নতুন তালিকাগুলি জিজ্ঞাসা করুন যদি ছোট এবং বড় মান সহ হয় occur অর্থাৎ, আপনি জিজ্ঞাসা যদি ছোট যখন ছোট। কি বৃহৎ যখন বড়? অবশ্যই উত্তরটি হ্যাঁ, এবং অবশ্যই আমরা প্রায় নিখুঁত সম্পর্ক স্থাপন করব। এটি আপনাকে সম্পর্কে কিছু বলতে পারেXaXbXaXYaXzXYzYXaYaXzYzX1 এর সাথে সম্পর্ক ? না।Y1


6

প্রকৃতপক্ষে, যে পরীক্ষাটি বর্ণিত হয়েছে (যেমন এক্স মানগুলি এবং ওয়াইয়ের মানগুলি স্বাধীনভাবে বাছাই করে এবং অন্যটির বিপরীতে একটিটিকে প্রতিস্থাপন করে) কিছু পরীক্ষা করে, ধরে নিই যে (এক্স, ওয়াই) দ্বিখণ্ডিত বিতরণ থেকে স্বতন্ত্র জোড়া হিসাবে নমুনা দেওয়া হয়েছে। আপনার ম্যানেজার যা পরীক্ষা করতে চান এটি কেবল এটি পরীক্ষা নয়। এটি মূলত একটি কিউকিউ-প্লটের লিনিয়ারিটি পরীক্ষা করছে, এক্স এর প্রান্তিক বিতরণকে ওয়াইয়ের প্রান্তিক বিতরণের সাথে তুলনা করে। বিশেষত, এক্স এর ঘনত্ব (চ (এক্স (এক্স)) ওয়াইএস (জি (ওয়াই)) এর ঘনত্বের সাথে সম্পর্কিত হলে, 'ডেটা' একটি সরলরেখার কাছে চলে যাবে:

f(x)=g((ya)/b) কিছু ধ্রুবক এবং । এটি তাদের অবস্থান-স্কেল পরিবারে রাখে। দুর্ভাগ্যক্রমে এটি পূর্বাভাস পাওয়ার কোনও পদ্ধতি নয় ...ab>0


4

আশ্চর্যের বিষয় যে সর্বাধিক সুস্পষ্ট কাউন্টারিক্স নমুনা এখনও তার সহজ আকারে উত্তরগুলির মধ্যে উপস্থিত নেই।

যাক ।Y=X

আপনি যদি ভেরিয়েবলগুলি আলাদাভাবে বাছাই করেন এবং এই জাতীয় ডেটাতে কোনও রিগ্রেশন মডেল ফিট করেন তবে আপনার মতো কিছু পাওয়া উচিত (কারণ যখন ভেরিয়েবলগুলি বাছাই করা হয় তখন একটির বৃহত্তর মান অবশ্যই অপরের বৃহত্তর মানের সাথে মিলিত হয়)।Y^X

আপনি এখানে সন্ধান করতে ইচ্ছুক সেই প্যাটার্নের এটি এক প্রকারের "সরাসরি বিপরীতমুখী"।


আপনি কি ব্যাখ্যা করতে পারেন যে এটি কীভাবে উত্সাহের প্রতিদ্বন্দ্বী?
whuber

ব্যবস্থাপকের দৃtion়তা যে আপনি ইনপুট এবং আউটপুটগুলি স্বাধীনভাবে বাছাই করে "সর্বদা আরও ভাল রেজগ্রেশন পেতে পারেন"।
কে.টি.

ধন্যবাদ. আপনার উদাহরণটি কেন এটি অস্বীকার করে তা আমি দেখতে পাচ্ছি না, যদিও: উভয় ক্ষেত্রেই , সুতরাং নিবন্ধগুলি সমানভাবে "ভাল"। R2=1
হোবার

একটি হোল্ড-আউট সেটটিতে এই পরিমাপের চেষ্টা করুন । R2
কে.টি.

1
এছাড়াও নোট করুন যে আমি এটি আশ্চর্যজনক মনে করি যে আপনি এখানে অন্য সমস্ত উত্তর উপেক্ষা করার সময় আমার উদাহরণটি ভুল বুঝে দেখেছেন। এগুলির সবগুলিই এমন মডেলগুলির উদাহরণ দেখিয়ে যা যা "বাছাই করা" পদ্ধতির সাহায্যে ভুলভাবে ফিট হবে, এমনকি যদি বাছাই করা হয় তবে প্রশিক্ষণের সেটটিতে আরও ভাল থাকার সত্যতা সত্ত্বেও । আমি কেবল ভেবেছিলাম যে বিবেচনা করা আপনার প্রাপ্ত ফলাফলগুলির সরলতা এবং সুস্পষ্ট মিলহীনতার জন্য এখানে অন্যান্য বেশিরভাগ উদাহরণের চেয়ে স্বজ্ঞাত হতে পারে। R2Y=X
কে.টি.

3

তুমি ঠিক. আপনার পরিচালক "ভাল" ফলাফল খুঁজে পেতে হবে! তবে এগুলি অর্থহীন। আপনি যখন তাদের স্বাধীনভাবে বাছাই করেন তখন আপনি যা পান তা হ'ল দুটি হয় একইভাবে বৃদ্ধি বা হ্রাস পায় এবং এটি একটি ভাল মডেলের প্রতীক দেয়। তবে দুটি ভেরিয়েবল তাদের প্রকৃত সম্পর্ক ছিনিয়ে নিয়ে গেছে এবং মডেলটি ভুল।


3

এটি কিউকিউ প্লট, তাই না? আপনি x বনাম y এর বিতরণ তুলনা করতে এটি ব্যবহার করবেন । তোমার মত সম্পর্কের সাজানো ফলাফল প্লটে বিভক্ত চান তাহলে , চক্রান্ত বাঁকা হবে, যা নির্দেশ করে যে এবং কিছু স্যাম্পলিং জন্য গুলি বিভিন্ন ডিস্ট্রিবিউশন আছে।xx2xx2x

লিনিয়ার রিগ্রেশন সাধারণত কম যুক্তিসঙ্গত হয় (ব্যতিক্রমগুলি বিদ্যমান, অন্যান্য উত্তর দেখুন); তবে লেজগুলির জ্যামিতি এবং ত্রুটির বিতরণ আপনাকে অনুরূপ বিতরণ থেকে কতটা দূরে বলে।


2

আমার একটি সাধারণ অন্তর্নিহিততা আছে কেন ফাংশনটি একঘেয়ে হয়ে থাকলে এটি আসলে একটি ভাল ধারণা :

কল্পনা করুন যে আপনি ইনপুটগুলি এবং সেগুলি র‌্যাঙ্ক করা হয়েছে, অর্থাৎ এবং ধরে নিন আমরা অজানা ফাংশনটি অনুমান করতে চাই। আপনি একটি র্যান্ডম মডেল বর্ণনা করতে পারেন যেখানে স্বাধীনভাবে যেমন নমুনা হিসেবে পাঠানো হয় নিম্নরূপ: যেখানে অবিশেষে বিযুক্ত থেকে নমুনা হয় সেট । এখানে, the তারতম্য নিয়ন্ত্রণ করে। উদাহরণস্বরূপ, কোনও আওয়াজ দেয় না এবং স্বতন্ত্র ইনপুট এবং আউটপুট দেয়।x1,x2,,xnxi<xi+1f:yi=f(xi)+εiεi

εi=f(xi+δ)f(xi)
δΔ N Δ = 0 Δ = n{Δ,Δ+1,Δ1,Δ}ΔNΔ=0Δ=n

এই মডেলটি মাথায় রেখে, আপনি বসের প্রস্তাবিত "বাছাই" পদ্ধতিটি সঠিকভাবে উপলব্ধি করে: আপনি যদি ডেটা র‌্যাঙ্ক করেন তবে আপনি এই ধরণের শব্দকে হ্রাস করুন এবং হালকা অনুমানের অধীনে এর অনুমান আরও ভাল হওয়া উচিত।f

প্রকৃতপক্ষে, আরও উন্নত মডেল ধরে নেবে যে are নির্ভরশীল, যাতে আমরা একই আউটপুটটি 2 বার পালন করতে পারি না। যেমন একটি ক্ষেত্রে, বাছাই পদ্ধতি এমনকি সর্বোত্তম হতে পারে। এটির সাথে র্যান্ডম র‌্যাঙ্কিংয়ের মডেলগুলির যেমন ম্যালোর এলোমেলো ক্রমবিকাশের সাথে দৃ strong় সংযোগ থাকতে পারে।εi

PS: আমি এটি আশ্চর্যজনক মনে করি যে একটি আপাতদৃষ্টিতে সরল প্রশ্ন কীভাবে পুনরায় চিন্তাভাবনের মানকগুলির মডেলটির আকর্ষণীয় নতুন উপায়ে নিয়ে যেতে পারে। আপনাকে ধন্যবাদ বস!


1
বা যখন কীভাবে সংজ্ঞায়িত হয় ? i + δ < 1 আমি + δ > এনxi+δi+δ<1i+δ>n
জুহো কোক্কালা

2

বলুন যে আপনি 5 এর ব্যাসার্ধের বৃত্তে এই পয়েন্টগুলি রেখেছেন You আপনি পারস্পরিক সম্পর্ক গণনা করুন:

import pandas as pd
s1 = [(-5, 0), (-4, -3), (-4, 3), (-3, -4), (-3, 4), (0, 5), (0, -5), (3, -4), (3, 4), (4, -3), (4, 3), (5, 0)]
df1 = pd.DataFrame(s1, columns=["x", "y"])
print(df1.corr())

   x  y
x  1  0
y  0  1

তারপরে আপনি আপনার x- এবং y- মানগুলিকে সাজান এবং আবার সম্পর্কটি করুন:

s2 = [(-5, -5), (-4, -4), (-4, -4), (-3, -3), (-3, -3), (0, 0), (0, 0), (3, 3), (3, 3), (4, 4), (4, 4), (5, 5)]
df2 = pd.DataFrame(s2, columns=["x", "y"])
print(df2.corr())

   x  y
x  1  1
y  1  1

এই কারসাজি দ্বারা, আপনি ০.০ এর সাথে একটি সম্পর্কিত ০.০ এর সাথে সম্পর্কিত করতে একটি ডেটা সেট পরিবর্তন করেছেন corre ঐটা একটা সমস্যা.


1

আমাকে এখানে শয়তানের অ্যাডভোকেট খেলুন। আমি মনে করি অনেক উত্তরই দৃ conv়প্রত্যয়ী ঘটনা তৈরি করেছে যে মনিবের পদ্ধতিটি মূলত ভুল। একই সময়ে, আমি একটি পাল্টা উদাহরণ দিচ্ছি যা বোঝায় যে এই ভুল পরিবর্তনের মাধ্যমে বস বাস্তবে ফলাফলের উন্নতি দেখে থাকতে পারে।

আমি মনে করি যে এই পদ্ধতিটি বসের পক্ষে "কাজ" করতে পারে তা আরও অনুপ্রেরণামূলক যুক্তি শুরু করতে পারে: অবশ্যই, এটি কাজ করেছিল, তবে কেবল এই ভাগ্যবান পরিস্থিতিতে যা সাধারণত ধারণ করে না। তারপরে আমরা দেখাতে পারি - দুর্দান্ত স্বীকৃত উত্তরের মতো - আমরা ভাগ্যবান না হলে এটি কতটা খারাপ হতে পারে। যা বেশিরভাগ সময় হয়। একলা, মনিব কিভাবে খারাপ দেখানো পারেন হতে তাঁকে বোঝাব নাও হতে পারে, কারণ তিনি একটি মামলা যেখানে এটি দেখা হতে পারে না কিছু বৃদ্ধি করতে, এবং চিত্র আমাদের অভিনব যুক্তি ত্রুটি কোথাও থাকতে হবে।

আমি এই ডেটাটি অনলাইনে খুঁজে পেয়েছি এবং যথেষ্ট নিশ্চিত, এটি X এবং Y এর পৃথক বাছাইয়ের মাধ্যমে রিগ্রেশনটির উন্নতি করেছে বলে মনে হয়: ক) ডেটা অত্যন্ত ইতিবাচকভাবে সম্পর্কিত, এবং খ) ওএলএস সত্যই চরমের সাথে ভাল করে না (উচ্চতর) -লাইভার্স) আউটলিয়ার্স। উচ্চতা এবং ওজনের সাথে আউটলেটারের অন্তর্ভুক্ত 0.19, বহিরাগতকে বাদ দেওয়া সহ 0.77 এবং এক্স এবং ওয়াই এর সাথে স্বতঃভাবে সাজানো হয়েছে এর সাথে 0.19 এর সম্পর্ক রয়েছে।

x <- read.csv ("https://vincentarelbundock.github.io/Rdatasets/csv/car/Davis.csv", header=TRUE)

plot (weight ~ height, data=x)

lm1 <- lm (weight ~ height, data=x)

xx <- x
xx$weight <- sort (xx$weight)
xx$height <- sort (xx$height)

plot (weight ~ height, data=xx)

lm2 <- lm (weight ~ height, data=xx)

plot (weight ~ height, data=x)
abline (lm1)
abline (lm2, col="red")

এখানে চিত্র বর্ণনা লিখুন

plot (x$height, x$weight)
points (xx$height, xx$weight, col="red")

এখানে চিত্র বর্ণনা লিখুন

সুতরাং এটি আমার কাছে উপস্থিত হয়েছে যে এই ডেটাসেটের রিগ্রেশন মডেলটি স্বাধীন বাছাইয়ের মাধ্যমে উন্নত হয়েছে (প্রথম গ্রাফের তুলনায় লাল বর্ণের তুলনায়), এবং সেখানে একটি দৃশ্যমান সম্পর্ক রয়েছে (দ্বিতীয় গ্রাফের মধ্যে লাল বনাম লাল), কারণ নির্দিষ্ট ডেটাসেট থাকার কারণে অত্যন্ত (ধনাত্মক) পারস্পরিক সম্পর্কযুক্ত এবং সঠিক ধরণের আউটলিয়ারদের থাকা যা আপনি স্বতন্ত্রভাবে এক্স এবং ওয়াইয়ের সাথে বাছাই করার সময় ঘটে যাওয়া পরিবর্তনের চেয়ে রিগ্রেশনকে ক্ষতি করে।

আবার, স্বাধীনভাবে বাছাই না করা সাধারণভাবে কিছু বুদ্ধিমানের কাজ করে না, বা এটি এখানে সঠিক উত্তর নয়। ঠিক এই যে বস সাহেব সম্ভবত এরকম কিছু দেখেছিলেন যা সঠিক পরিস্থিতিতে কাজ করার জন্য ঘটেছে।


1
এটি একটি খাঁটি কাকতালীয় মনে হচ্ছে যে আপনি একই রকমের সম্পর্কযুক্ত সহগতে এসে পৌঁছেছেন। এই উদাহরণটি মূল এবং স্বতঃ-সজ্জিত ডেটার মধ্যে সম্পর্ক সম্পর্কে কিছুই প্রদর্শন করে না বলে মনে হয়।
হোবার

2
@ হুইবার: দ্বিতীয় গ্রাফটি কেমন? আমার কাছে এটি অনুভূত হয় যে মূল তথ্যটি যদি খুব বেশি সংযুক্ত থাকে তবে এগুলি বাছাই করা কেবলমাত্র মূল সম্পর্কের +/- সংরক্ষণ করে কিছুটা মান পরিবর্তন করতে পারে। কয়েকজন আউটলিয়ারের সাথে জিনিসগুলি আরও পুনর্বিন্যাসিত হয়, তবে ... দুঃখিত, এর চেয়ে আরও বেশি বেশি গণিতের চপ আমার কাছে নেই।
ওয়েইন

1
আমি মনে করি আপনি যে স্বজ্ঞাততা প্রকাশ করেছেন তা সঠিক, ওয়েন। প্রশ্নের যুক্তি - যেমনটি আমি এটি ব্যাখ্যা করি - আপনি একা বাছাই করা ভেরিয়েবলের স্ক্র্যাটারপ্লোটের উপর ভিত্তি করে মূল ডেটা সম্পর্কে কী বলতে পারবেন তা উদ্বেগ করে। উত্তরটি হ'ল আপনি তাদের পৃথক (অবিবাহিত) বিতরণ থেকে যা অনুমান করতে পারেন তার বাইরে একেবারে কিছুই নয়। মুল বক্তব্যটি হ'ল আপনার দ্বিতীয় গ্রাফের লাল বিন্দুগুলি কেবল আপনার দেখানো ডেটার সাথেই নয় , সেই সমস্ত তথ্যের অন্যান্য জ্যোতির্বিজ্ঞানের সাথে জ্যোতির্বিজ্ঞানের দিক থেকেও বিপুল সংখ্যার সাথে সামঞ্জস্য রয়েছে - এবং সেই অনুমতিগুলির মধ্যে কোনটি আপনার জানার উপায় নেই have ঠিক জিনিসটা.
হোবার

2
@ যেহেতু আমি মনে করি এখানে মূল পার্থক্য হ'ল ওপি বলেছে এটি অবশ্যই ডেটা "সম্পূর্ণ ধ্বংস" করবে। আপনার গৃহীত উত্তরগুলি সাধারণভাবে কীভাবে হয় তা বিস্তারিতভাবে দেখায়। আপনাকে এই উপায়ে চিকিত্সা হ্যান্ড করা যাবে না এবং ফলাফলটি উপলব্ধি করবে কিনা সে সম্পর্কে কোনও ধারণা আছে। কিন্তু, এটাও সত্য যে ম্যানেজার আগে আমার (পাল্টা) উদাহরণের মতো উদাহরণগুলি মোকাবেলা করতে পারত এবং আবিষ্কার করেছিল যে এই বিভ্রান্ত রূপান্তরটি বাস্তবে ফলাফলের উন্নতি করেছে। সুতরাং আমরা একমত হতে পারি যে ম্যানেজারটি মূলত ভুল ছিল, তবে এটি সম্ভবত বেশ ভাগ্যবানও হতে পারে - এবং ভাগ্যবান ক্ষেত্রে এটি কার্যকর হয়।
ওয়েইন

@ শুভ: আমি আমার উত্তরের ভূমিকাটি এমনভাবে সম্পাদনা করেছি যাতে আমি মনে করি এটি আলোচনার সাথে প্রাসঙ্গিক করে তোলে। আমি মনে করি যে বসের পদ্ধতি কীভাবে তার পক্ষে কাজ করেছে তা স্বীকার করা আরও অনুপ্রেরণামূলক যুক্তির প্রথম পদক্ষেপ হতে পারে যা বসের অভিজ্ঞতা নিয়ে জীবন-যাপন করে। তোমার বিবেচনার জন্য.
ওয়েন 21

-7

যদি তিনি একক হিসাবে চলকগুলি বেছে নিয়ে থাকেন তবে এটি আসলে মোটামুটি শক্ত। গুগল "অনুপযুক্ত লিনিয়ার মডেল" এবং "রবিন ডাউস" বা "হাওয়ার্ড ওয়াইনার।" ডাউস এবং ওয়াইনার সহগ বাছাই করার বিকল্প উপায় সম্পর্কে কথা বলেন। জন কুকের এটিতে একটি ছোট কলাম রয়েছে ( http://www.johndcook.com/blog/2013/03/05/robustness-of-equal-weights/ ))


4
কুক সেই ব্লগ পোস্টে যা আলোচনা করে তা এক্স এবং ওয়াইকে একে অপরের থেকে আলাদাভাবে বাছাই করা এবং তার পরে বাছাই করা ভেরিয়েবলগুলিতে একটি রিগ্রেশন মডেল ফিট করার মতো নয়।
গাং

4
ওপি'র বস যা করছেন তা "ফিগার্স (জি (এক্স)) দ্বারা" ভবিষ্যদ্বাণী [ইঙ্গিত] নয়, যেখানে এফ এবং জি ওয়াই এবং এক্স এর এক্সডিএফস "। আপনি আমার উত্তরে কোডটিতে পদ্ধতিটি দেখতে পারেন।
গাং

4
আপনি কি 1. দাভিস এবং / বা ওয়াইনারের দ্বারা নির্দিষ্ট কাগজে একটি উল্লেখ যুক্ত করতে পারেন, 2. এটি কীভাবে বসের বাছাইয়ের পদ্ধতির সাথে সম্পর্কিত? বা বিন্দুটি ঠিক এই যে, সাইনটি সঠিক হওয়ার পরে এবং অনুমানের দ্বারা চিহ্নটি সঠিক হওয়ার পরে যদি সহগের মানটি যদি বেশি পরিমাণে আসে না, তবে বসের পদ্ধতিটি সহগের জন্য অদ্ভুত মান দেয় তা খুব বেশি কিছু যায় আসে না?
জুহো কোক্কলা

2
1. তথ্যসূত্র: - ডাউস, আরএম "সিদ্ধান্ত নেওয়ার ক্ষেত্রে অযৌক্তিক রৈখিক মডেলের শক্তিশালী সৌন্দর্য" " আমের। Psychol। 34, না। 7 (1979): 571. - ওয়াইনার, এইচ। "রৈখিক মডেলগুলিতে সহগের অনুমান করা: এটি কোনও মাইন্ডমাইন্ড করে না" " সাইক। ষাঁড়. 83, না। 2 (1976): 213. - ডাউস, আরএম, এবং করিগান, বি। "সিদ্ধান্ত নেওয়ার ক্ষেত্রে লিনিয়ার মডেলগুলি" " সাইক। বুল।, 81 95-106 (1974) ২. দাভস এবং ওয়াইনার উভয়ই দেখায় যে, বাস্তব উপাত্ত এবং বাস্তব ভবিষ্যদ্বাণী সমস্যাগুলির সাথে, এক্স থেকে ভবিষ্যতের ওয়াইয়ের ভবিষ্যদ্বাণীগুলি X থেকে তাদের উপায়গুলি থেকে বিচ্যুতি বা মেলানো র‌্যাঙ্কগুলি দ্বারা বেশ ভাল কাজ করে, এবং এটি বরং opeাল সংবেদনশীল।
বিল রায়নর

2
এই রেফারেন্সগুলি এবং ব্যাখ্যা আপনার মন্তব্যে দাফনের চেয়ে উত্তরে আরও ভাল হবে।
স্কোর্টচি

-8

আমি এটি সম্পর্কে ভেবেছি, এবং ভেবেছি অর্ডার পরিসংখ্যানের ভিত্তিতে এখানে কিছু কাঠামো রয়েছে। আমি পরীক্ষা করে দেখেছি এবং মনে হচ্ছে ম্যানেজারের মোটি শোনা বাদাম নয় not

বায়োসিগনাল বিশ্লেষণের অ্যাপ্লিকেশন সহ একটি উপন্যাস সমিতি পরিমাপ হিসাবে পরিসংখ্যানের সহসংস্থান সহগ আদেশ করুন

http://www.researchgate.net/profile/Weichao_Xu/publication/3320558_Order_Statistics_Correlation_Coefficient_as_a_Novel_Association_Measurement_With_Applications_to_Biosignal_Analysis/links/0912f507ed6f94a3c6000000.pdf

আমরা অর্ডার পরিসংখ্যান এবং পুনর্বিন্যাসের বৈষম্যের উপর ভিত্তি করে একটি উপন্যাসের পারস্পরিক সম্পর্ক সহগের প্রস্তাব দিই। প্রস্তাবিত সহগটি পিয়ারসনের রৈখিক সহগ এবং স্পেকম্যানের rho এবং কেন্ডালের টাউ নামে দুটি র‌্যাঙ্ক-ভিত্তিক সহগের মধ্যে একটি সমঝোতার প্রতিনিধিত্ব করে। তাত্ত্বিক ডেরাইভেশনগুলি দেখায় যে আমাদের সহগ তিনটি শাস্ত্রীয় সহগ হিসাবে একই বুনিয়াদি বৈশিষ্ট্যযুক্ত। চারটি মডেল এবং ছয়টি বায়োসিগনালের উপর ভিত্তি করে পরীক্ষামূলক অধ্যয়নগুলি দেখায় যে লিনিয়ার অ্যাসোসিয়েশনগুলি পরিমাপ করার সময় আমাদের গুণাগুণ দুটি র‌্যাঙ্ক-ভিত্তিক সহগের চেয়ে ভাল পারফর্ম করে; যদিও এটি দুটি র‌্যাঙ্ক-ভিত্তিক সহগের মতো মনোটোন ননলাইনার সমিতিগুলি সনাক্ত করতে সক্ষম। বিস্তৃত পরিসংখ্যানগত বিশ্লেষণগুলিও আমাদের নতুন সহগের উচ্চতর শব্দ-বিরোধী দৃ rob়তা, ছোট পক্ষপাত,


14
এই প্রশ্নটি বর্ণনা করা হয় না। তথ্য অর্ডার পরিসংখ্যান দ্বারা প্রতিস্থাপিত হয়, তখন জোড়া ডেটার এখনও সংযুক্ত হিসাবে তারা সবসময় ছিল। প্রশ্নটি এমন একটি ক্রিয়াকলাপ বর্ণনা করে যা এই সংযোগগুলিকে ধ্বংস করে, তাদের যৌথ বন্টন সম্পর্কিত সমস্ত তথ্য বিস্মৃত করে।
whuber

অগত্যা। ডেটা সেট তৈরি (বা ঘটতেও পারে) যেখানে স্বাধীন বাছাইয়ের ফলে যৌথ সম্ভাবনা সম্পর্কে সমস্ত তথ্য নষ্ট হয় না।
ড্যানিয়েল

5
দয়া করে আমাদের আপনার দাবির একটি সুস্পষ্ট উদাহরণ দিন, কারণ এমনটি গাণিতিকভাবে কীভাবে সম্ভব, বাস্তবে খুব কম সম্ভব তা দেখা মুশকিল।
শুক্র

@ শুভ: দয়া করে আমার নতুন উত্তরটি দেখুন, যা আপনার প্রশ্নকে সন্তুষ্ট করে এমন একটি বাস্তব-জালযুক্ত ডেটাসেট রয়েছে ... আমার মনে হয়।
ওয়েন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.