সর্বনিম্ন স্কোয়ারগুলি কখন খারাপ ধারণা হবে?


11

যদি আমার কাছে রিগ্রেশন মডেল থাকে: যেখানে এবং ,

Y=Xβ+ε
V[ε]=IdRn×nE[ε]=(0,,0)

কখন βOLS , সাধারণ least β এর সর্বনিম্ন স্কোয়ারের অনুমানকারী , কোনও অনুমানকারীের পক্ষে বাজে পছন্দ?

আমি একটি উদাহরণ খুঁজে বের করার চেষ্টা করছি যে সর্বনিম্ন স্কোয়ারগুলি খারাপ কাজ করে। সুতরাং আমি ত্রুটিগুলির একটি বিতরণ সন্ধান করছি যা পূর্ববর্তী অনুমানকে সন্তুষ্ট করে তবে খারাপ ফল দেয়। বিতরণের পরিবারটি যদি গড় এবং বিভিন্নতার দ্বারা নির্ধারিত হয় তবে তা দুর্দান্ত। যদি তা না হয় তবে তা ঠিক আছে।

আমি জানি যে "খারাপ ফলাফল" কিছুটা অস্পষ্ট তবে আমি ধারণাটি বোধগম্য।

শুধু বিভ্রান্তি এড়াতে, আমি জানি কমপক্ষে স্কোয়ারগুলি অনুকূল নয় এবং রিজ রিগ্রেশন এর মতো আরও ভাল অনুমানকারী রয়েছে। তবে এটাই আমি লক্ষ্য করছি না। আমি চাই একটি উদাহরণ হ'ল ন্যূনতম স্কোয়ারগুলি অপ্রাকৃত।

আমি এই জাতীয় জিনিসগুলি কল্পনা করতে পারি, ত্রুটি ভেক্টর ϵRn অঞ্চলে বাস করে , তবে আমি সে সম্পর্কে নিশ্চিত নই।

সম্পাদনা 1: একটি উত্তর হিসাবে সহায়তা করার ধারণা হিসাবে (যা আমি কীভাবে আরও গ্রহণ করব তা অনুমান করতে পারি না)। βOLS নীল। সুতরাং কখন লিনিয়ার নিরপেক্ষ অনুমানকটি ভাল ধারণা হতে পারে না তা ভাবতে সহায়তা করতে পারে।

2 সম্পাদনা করুন: ব্রায়ান যেমন উল্লেখ করেছেন, যদি XX খারাপ অবস্থা হয় তবে βOLS a একটি খারাপ ধারণা কারণ বৈকল্পিকতা খুব বড় এবং এর পরিবর্তে রিজ রিগ্রেশন ব্যবহার করা উচিত। আমি আরও আগ্রহী হ'ল কম বিতরণগুলি খারাপ কাজ করার জন্য কী বিতরণ করা উচিত ε জেনে আগ্রহী ।

βOLSβ+(XX)1Xε আছে জন্য শূন্য গড় এবং পরিচয় ভ্যারিয়েন্স ম্যাট্রিক্স সঙ্গে একটি বন্টনε যে এই মূল্নির্ধারক দক্ষ না করে তোলে?


1
আমি কঠোর শব্দ শুনতে চাই না, তবে আপনি কী চান তা আমি পুরোপুরি নিশ্চিত নই। অনেকগুলি উপায় রয়েছে যে কোনও কিছুতে পছন্দ খারাপ হতে পারে। সাধারণত, আমরা পক্ষপাত , বৈকল্পিকতা , দৃust়তা এবং দক্ষতার মতো জিনিসের ক্ষেত্রে মূল্যায়নকারীকে মূল্যায়ন করি । যেমন, আপনি মনে রাখবেন, OLS ঔজ্জ্বল্যের প্রেক্ষাপটে মূল্নির্ধারক হয় নীল
গুং - মনিকা পুনরায়

1
OTOH, বৈকল্পিক অকেজো হিসাবে এত বড় হতে পারে, একটি কম-বৈকল্পিক কিন্তু পক্ষপাতদুষ্ট প্রাক নির্মাতাকে তুলনামূলক পছন্দযোগ্য করে তোলে। আর একটি উদাহরণ হ'ল ওএলএস আপনার ডেটাতে সমস্ত তথ্য সর্বাধিক ব্যবহার করে তবে এটি এটিকে বহিরাগতদের কাছে সংবেদনশীল করে তোলে। দক্ষতা বজায় রাখার চেষ্টা করার সময় প্রচুর বিকল্প লোকসান ফাংশন রয়েছে যা আরও বেশি শক্তিশালী। আপনি যদি এ জাতীয় শর্তে আপনার প্রশ্নটি আবার ফ্রেম করতে পারেন তবে এটি আরও পরিষ্কার হতে পারে। কোনও অনুমানকারীকে "অপ্রাকৃত" হওয়ার অর্থ কী তা আমি জানি না।
গুং - মনিকা পুনরায়

আপনার মন্তব্যের জন্য ধন্যবাদ, এটি আমাকে প্রশ্নের দ্ব্যর্থকতা বুঝতে পেরেছিল। আমি আশা করি এটি এখন আরও স্পষ্ট
ম্যানুয়েল

এই উত্তরে রিগ্রেশন দেখুন । সংক্ষেপে: প্রভাবশালী outliers একটি সমস্যা হতে পারে।
গ্লেন_বি -রিনস্টেট মনিকা

উত্তর:


8

ব্রায়ান বোর্চার্স উত্তরটি বেশ ভাল --- যে তথ্যগুলিতে অদ্ভুত আউটলিয়ার রয়েছে সেগুলি প্রায়শই ওএলএস দ্বারা ভালভাবে বিশ্লেষণ করা হয় না। আমি কেবল একটি ছবি, একটি মন্টি কার্লো এবং কিছু Rকোড যুক্ত করে এটিতে প্রসারিত করতে যাচ্ছি ।

খুব সাধারণ রিগ্রেশন মডেলটি বিবেচনা করুন:

ওয়াইআমি=β1এক্সআমি+ +εআমি εআমি={এন(0,0.04)Wপি0,99931Wপি0.0005-31Wপি0.0005

এই মডেলটি 1 এর slাল সহগের সাথে আপনার সেটআপের সাথে সামঞ্জস্য করে।

সংযুক্ত প্লটটি এই মডেলটিতে 100 টি পর্যবেক্ষণ বিশিষ্ট একটি ডেটাসেট দেখায়, 0 থেকে 1 অবধি চলকযুক্ত ডেটাসেটে, ত্রুটিটির একটি অঙ্ক আছে যা একটি বহিরাগত মান নিয়ে আসে (এই ক্ষেত্রে +31) । নীলে ওএলএসের রিগ্রেশন লাইন এবং লাল রঙের মধ্যে সর্বনিম্ন নিখুঁত বিচ্যুতি রিগ্রেশন লাইনও প্লট করা হয়েছে। লক্ষ করুন যে ওএলএস কিন্তু এলএডি নয় কীভাবে আউটলেটারের দ্বারা বিকৃত হয়:

ওএলএস বনাম এলএডি একটি আউটলেটারের সাথে

আমরা মন্টি কার্লো করে এটি যাচাই করতে পারি। মন্টি কার্লোতে, আমি একই এবং একটি উপরের বিতরণ সহ 10,000 বার বার করে 100 টি পর্যবেক্ষণের একটি ডেটাसेट তৈরি করিএই 10,000 টি প্রতিলিপিগুলিতে আমরা বিশাল সংখ্যাগরিষ্ঠে কোনও আউটলেট পাবেন না। তবে কয়েকজনের মধ্যে আমরা একজন আউটরিয়ার পাব এবং এটি ওএলএস-কে স্ক্রু করবে তবে প্রতিবার LAD নয়। নিচের কোড মন্টে কার্লো চালায়। Theাল সহগের জন্য ফলাফলগুলি এখানে:ϵএক্সεR

               Mean   Std Dev   Minimum   Maximum 
Slope by OLS   1.00      0.34     -1.76      3.89 
Slope by LAD   1.00      0.09      0.66      1.36

ওএলএস এবং এলএডি উভয়ই পক্ষপাতহীন অনুমান করে ((ালু উভয়ই 10,000 টিরও বেশি প্রতিলিপি গড়ে 1.00)। ওএলএস একটি উচ্চতর স্ট্যান্ডার্ড বিচ্যুতি সহ একটি অনুমানকারী উত্পাদন করে, যদিও, 0.34 বনাম 0.09। সুতরাং, নিরপেক্ষ অনুমানকারীদের মধ্যে ওএলএস সর্বোত্তম / সবচেয়ে দক্ষ নয়। এটি এখনও নিখরচায়, তবে এলএডি লিনিয়ার নয়, তাই কোনও বৈপরীত্য নেই। ন্যূনতম এবং সর্বাধিক কলামে ওএলএস বুনো ত্রুটিগুলি করতে পারে তা লক্ষ্য করুন। এতটা LAD নয়।

গ্রাফ এবং মন্টি কার্লো উভয়ের জন্য আর কোড এখানে রয়েছে:

# This program written in response to a Cross Validated question
# http://stats.stackexchange.com/questions/82864/when-would-least-squares-be-a-bad-idea

# The program runs a monte carlo to demonstrate that, in the presence of outliers,
# OLS may be a poor estimation method, even though it is BLUE.


library(quantreg)
library(plyr)

# Make a single 100 obs linear regression dataset with unusual error distribution
# Naturally, I played around with the seed to get a dataset which has one outlier
# data point.

set.seed(34543)

# First generate the unusual error term, a mixture of three components
e <- sqrt(0.04)*rnorm(100)
mixture <- runif(100)
e[mixture>0.9995] <- 31
e[mixture<0.0005] <- -31

summary(mixture)
summary(e)

# Regression model with beta=1
x <- 1:100 / 100
y <- x + e

# ols regression run on this dataset
reg1 <- lm(y~x)
summary(reg1)

# least absolute deviations run on this dataset
reg2 <- rq(y~x)
summary(reg2)

# plot, noticing how much the outlier effects ols and how little 
# it effects lad
plot(y~x)
abline(reg1,col="blue",lwd=2)
abline(reg2,col="red",lwd=2)


# Let's do a little Monte Carlo, evaluating the estimator of the slope.
# 10,000 replications, each of a dataset with 100 observations
# To do this, I make a y vector and an x vector each one 1,000,000
# observations tall.  The replications are groups of 100 in the data frame,
# so replication 1 is elements 1,2,...,100 in the data frame and replication
# 2 is 101,102,...,200.  Etc.
set.seed(2345432)
e <- sqrt(0.04)*rnorm(1000000)
mixture <- runif(1000000)
e[mixture>0.9995] <- 31
e[mixture<0.0005] <- -31
var(e)
sum(e > 30)
sum(e < -30)
rm(mixture)

x <- rep(1:100 / 100, times=10000)
y <- x + e
replication <- trunc(0:999999 / 100) + 1
mc.df <- data.frame(y,x,replication)

ols.slopes <- ddply(mc.df,.(replication),
                    function(df) coef(lm(y~x,data=df))[2])
names(ols.slopes)[2] <- "estimate"

lad.slopes <- ddply(mc.df,.(replication),
                    function(df) coef(rq(y~x,data=df))[2])
names(lad.slopes)[2] <- "estimate"

summary(ols.slopes)
sd(ols.slopes$estimate)
summary(lad.slopes)
sd(lad.slopes$estimate)

@ ম্যানুয়েল ধন্যবাদ আমি আমার আর প্রোগ্রামে একটি ত্রুটি পেয়েছি --- একটি 0.04 ছিল যেখানে সেখানে স্কয়ারটি (0.04) হওয়া উচিত ছিল। এটি উত্তরের জোর পরিবর্তন করেনি। ফলাফলের ক্ষেত্রে এটি একটি সামান্য পার্থক্য করেছে। তবে আপনি যদি কোডটি আগে অনুলিপি করেন তবে আপনার এখনই এটি অনুলিপি করা উচিত।
বিল

7

একটি উদাহরণ হ'ল যেখানে আপনি গড়টি অনুমান করতে চান না। এইচআইভি / এইডস ছড়িয়ে দেওয়ার মডেলিংয়ের অংশ হিসাবে আমরা যেখানে কাজ করতাম সেখানে লোকেদের যৌন সঙ্গীর সংখ্যা নির্ধারণের কাজটি করতাম This বিতরণের লেজগুলিতে আরও আগ্রহ ছিল: কোন লোকের অনেক অংশীদার রয়েছে?

এই ক্ষেত্রে, আপনি কোয়ান্টাইল রিগ্রেশন চাইবেন; আমার মতে একটি আন্ডারউজড পদ্ধতি।


β

ওয়াই

হ্যাঁ, আমি ওয়াইয়ের গড় বোঝাতে চাইছিলাম OL
পিটার ফ্লম

(এক্স-একটি)2+ +(এক্স-)2এল1

6

এক্স

ε

εβ


ε

1
তদতিরিক্ত, গাউস-মার্কভ লিনিয়ারগুলির মধ্যে ন্যূনতম বৈকল্পিক নিরপেক্ষ অনুমানক হওয়া নিশ্চিত করে। একরকম বিতরণের জন্য লিনিয়ার অনুমানকগুলি পুনঃসারণযোগ্য নয়। এটাই আমি বুঝতে চাই।
ম্যানুয়েল

εআমি=0εআমি=1000,00005εআমি=-1000,00005এক্স=আমিβε

এক্স=1β=0β^

আমি বিশ্বাস করি যে আপনার দ্বিতীয় মন্তব্যটি আমি যা খুঁজছি is এটি কেবল ঘটনার কম সম্ভাবনা আমাকে বিরক্ত করে। এছাড়াও সেই উদাহরণটি থেকে এটি বেশ পরিষ্কার যে ত্রুটিগুলির বন্টন জেনে যখন আরও ভাল প্রাক্কলনকারী তৈরি করা যায়।
ম্যানুয়েল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.