এলোমেলো প্রভাব যুক্ত করা সহগের অনুমানকে প্রভাবিত করে


10

আমাকে সর্বদা শিখিয়ে দেওয়া হয়েছে যে এলোমেলো প্রভাবগুলি কেবল বৈকল্পিকতা (ত্রুটি )কে প্রভাবিত করে এবং এই স্থির প্রভাবগুলি কেবলমাত্র গড়কে প্রভাবিত করে। তবে আমি এমন একটি উদাহরণ পেয়েছি যেখানে এলোমেলো প্রভাবের অর্থগুলিও প্রভাবিত করে - সহগের অনুমান:

require(nlme)
set.seed(128)
n <- 100
k <- 5
cat <- as.factor(rep(1:k, each = n))
cat_i <- 1:k # intercept per kategorie
x <- rep(1:n, k)
sigma <- 0.2
alpha <- 0.001
y <- cat_i[cat] + alpha * x + rnorm(n*k, 0, sigma)
plot(x, y)

# simulate missing data
y[c(1:(n/2), (n*k-n/2):(n*k))] <- NA

m1 <- lm(y ~ x)
summary(m1)

m2 <- lm(y ~ cat + x)
summary(m2)

m3 <- lme(y ~ x, random = ~ 1|cat, na.action = na.omit)
summary(m3)

আপনি দেখতে পাচ্ছেন যে xমডেল থেকে আনুমানিক গুণফল m1-0.013780, যখন মডেল থেকে m3এটি 0.0011713 - উভয়ই শূন্য থেকে উল্লেখযোগ্যভাবে পৃথক।

মনে রাখবেন যে আমি যখন অনুপস্থিত ডেটা অনুকরণকারী লাইনটি সরিয়ে ফেলি, ফলাফলগুলি একই হয় (এটি সম্পূর্ণ ম্যাট্রিক্স)।

কেন এমন?

পিএস: দয়া করে নোট করুন আমি কোনও পেশাদার পরিসংখ্যানবিদ নই, সুতরাং আপনি যদি প্রচুর গণিতের সাথে সাড়া দিতে চলেছেন তবে দয়া করে ডামিদের জন্য কিছু সাধারণ সংক্ষিপ্তসারও তৈরি করুন :-)


আমার ধারণা আপনি "মডেল থেকে m3এটি 0.0011713" এর পরিবর্তে বলতে চান m2
usεr11852

আমি দুঃখিত @ ব্যবহারকারী 11852, হ্যাঁ আপনি সঠিক, ধন্যবাদ। (বিটিডাব্লু, কারণ m2এটিও বৈধ (যা অন্য প্রশ্নের বিষয় )
কৌতূহলী

উত্তর:


11

"আমাকে সর্বদা শিখানো হয়েছে যে এলোমেলো প্রভাবগুলি কেবল বৈকল্পিকতা (ত্রুটি) প্রভাবিত করে এবং এই স্থির প্রভাবগুলি কেবলমাত্র প্রভাবকে প্রভাবিত করে।"

যেমন আপনি আবিষ্কার করেছেন, এটি কেবলমাত্র ভারসাম্যপূর্ণ, সম্পূর্ণ (যেমন, কোনও অনুপস্থিত ডেটা) কোনও অবিচ্ছিন্ন ভবিষ্যদ্বাণীবিহীন ডেটাসেটের জন্যই সত্য। অন্য কথায়, ধ্রুপদী আনোভা পাঠ্যগুলিতে আলোচিত ডেটা / মডেলগুলির জন্য। এই আদর্শ পরিস্থিতিতে স্থির প্রভাব এবং এলোমেলো প্রভাবগুলি একে অপরের থেকে স্বতন্ত্র হিসাবে অনুমান করা যায়।

যখন এই শর্তগুলি ধরে না রাখে (যেহেতু তারা "রিয়েল ওয়ার্ল্ডে খুব প্রায়ই থাকে না), স্থির এবং এলোমেলো প্রভাবগুলি স্বাধীন হয় না। আকর্ষণীয় বিষয়টিকে বাদ দিয়ে, এই কারণেই "আধুনিক" মিশ্র মডেলগুলি ধ্রুপদী মিশ্র আনোভা মামলার মতো কিছুটা ম্যাট্রিক্স বীজগণিতের সাথে ঠিক সমাধান না করে পুনরাবৃত্তিমূলক অপ্টিমাইজেশন পদ্ধতিগুলি ব্যবহার করে অনুমান করা হয়: স্থির প্রভাবগুলি অনুমান করার জন্য, আমাদের অবশ্যই এলোমেলো প্রভাবগুলি জানুন, তবে এলোমেলো প্রভাবগুলি অনুমান করার জন্য, আমাদের নির্দিষ্ট প্রভাবগুলি জানতে হবে! বর্তমান প্রশ্নের সাথে আরও প্রাসঙ্গিক, এর অর্থ এইও হয় যে যখন ডেটা ভারসাম্যহীন / অসম্পূর্ণ থাকে এবং / বা মডেলটিতে ক্রমাগত ভবিষ্যদ্বাণী থাকে, তখন মিশ্র মডেলের এলোমেলো-প্রভাব কাঠামোকে সামঞ্জস্য করা মডেলের নির্দিষ্ট অংশের অনুমানকে পরিবর্তন করতে পারে , এবং বিপরীতভাবে.

2016-07-05 সম্পাদনা করুন। মন্তব্যগুলি থেকে: " কেন আপনি ধারাবাহিক ভবিষ্যদ্বাণীকারীরা মডেলের নির্দিষ্ট অংশের অনুমানকে প্রভাবিত করবেন তার একটি বিশদ বিবরণ বা বিবৃতি দিতে পারেন? "

মডেলের নির্দিষ্ট অংশের জন্য অনুমানগুলি মডেলটির এলোমেলো অংশের জন্য অনুমানের উপর নির্ভর করবে - অর্থাত্ আনুমানিক বৈকল্পিক উপাদানগুলি - যদি (তবে কেবল তা না হয়) ক্লাস্টারগুলিতে ভবিষ্যদ্বাণীগুলির বৈকল্পিকতা পৃথক হয়। যা প্রায় নিশ্চিতভাবেই সত্য হবে যদি ভবিষ্যদ্বাণীকারীদের মধ্যে কেউ অবিচ্ছিন্ন থাকে (কমপক্ষে "রিয়েল ওয়ার্ল্ড" ডেটাতে - তাত্ত্বিকভাবে এটির পক্ষে এটি সত্য হওয়া সম্ভব নয়, যেমন একটি নির্মিত ডেটাসেটে)।


কেন আপনি ধারাবাহিক ভবিষ্যদ্বাণীকারীরা মডেলটির নির্দিষ্ট অংশের অনুমানকে প্রভাবিত করবেন তার বিশদ বিবরণ দিতে বা উদ্ধৃতি দিতে পারেন?
robin.datadrivers

@ robin.datadrivers ঠিক আছে আমি সে সম্পর্কে কিছুটা যুক্ত করেছি
জ্যাক ওয়েস্টফল

3

প্রথম স্তরে, আমি মনে করি আপনি সমস্ত জনসংখ্যার মানগুলির দিকে সংকোচনের বিষয়টি উপেক্ষা করছেন ; " মিশ্র-প্রভাবগুলির মডেল থেকে প্রতি-বিষয় slালু এবং বাধাগুলি জনসংখ্যার প্রাক্কলনের তুলনায় ন্যূনতম বর্গক্ষেত্রের তুলনায় নিকটবর্তী। " [রেফ। 1]। নিম্নলিখিত লিঙ্কটি সম্ভবত সহায়ক হবে ( আমার মিশ্র-মডেলগুলি দেখার জন্য সঠিক বর্ণনামূলক কী কী? ), মাইক লরেন্সের উত্তর দেখুন)।

তদুপরি, আমি মনে করি আপনি আপনার খেলনা উদাহরণে প্রান্তিকভাবে দুর্ভাগ্য কারণ আপনার একটি নিখুঁত ভারসাম্য নকশা রয়েছে যা আপনাকে অনুপস্থিত মানগুলির ক্ষেত্রে ঠিক একই অনুমানের কারণ হিসাবে দেখায়।

নিম্নলিখিত কোডটি চেষ্টা করুন যার কোনও অনুপস্থিত মান ছাড়াই একই প্রক্রিয়া রয়েছে:

 cat <- as.factor(sample(1:5, n*k, replace=T) ) #This should be a bit unbalanced.
 cat_i <- 1:k # intercept per kategorie
 x <- rep(1:n, k)
 sigma <- 0.2
 alpha <- 0.001
 y <- cat_i[cat] + alpha * x + rnorm(n*k, 0, sigma) 

 m1 <- lm(y ~ x)  
 m3 <- lme(y ~ x, random = ~ 1|cat, na.action = na.omit) 

 round(digits= 7,fixef(m3)) ==  round(digits=7, coef(m1)) #Not this time lad.
 #(Intercept)           x 
 #      FALSE       FALSE 

এখন কোথায়, কারণ আপনার নকশাটি পুরোপুরি ভারসাম্যপূর্ণ নয় কারণ আপনার কাছে একই গুণফলের অনুমান নেই।

বাস্তবে আপনি যদি আপনার নিখোঁজ মানের ধরণটি নিরীহ উপায়ে খেলেন (উদাহরণস্বরূপ y[ c(1:10, 100 + 1:10, 200 + 1:10, 300 + 1:10, 400 +1:10)] <- NA:) যাতে আপনার নকশাটি এখনও পুরোপুরি ভারসাম্যপূর্ণ হয় তবে আপনি আবার একই সহগগুলি পাবেন।

 require(nlme)
 set.seed(128)
 n <- 100
 k <- 5
 cat <- as.factor(rep(1:k, each = n))
 cat_i <- 1:k # intercept per kategorie
 x <- rep(1:n, k)
 sigma <- 0.2
 alpha <- 0.001
 y <- cat_i[cat] + alpha * x + rnorm(n*k, 0, sigma)
 plot(x, y)

 # simulate missing data in a perfectly balanced way
 y[ c(1:10, 100 + 1:10, 200 + 1:10, 300 + 1:10, 400 +1:10)] <- NA

 m1 <- lm(y ~ x)  
 m3 <- lme(y ~ x, random = ~ 1|cat, na.action = na.omit) 

 round(digits=7,fixef(m3)) ==  round(digits=7, coef(m1)) #Look what happend now...
 #(Intercept)           x 
 #       TRUE        TRUE 

আপনি আপনার আসল পরীক্ষার নিখুঁত ডিজাইনের মাধ্যমে প্রান্তিকভাবে বিভ্রান্ত হয়ে পড়েছেন। যখন আপনি আন-ভারসাম্য দূরে এনএ'স প্রবেশ করিয়েছিলেন তখন আপনি স্বতন্ত্র বিষয়গুলি একে অপরের কাছ থেকে কতটা "শক্তি" নিতে পারে তার প্যাটার্নটি পরিবর্তন করেছিলেন।

সংক্ষেপে আপনি যে পার্থক্যগুলি দেখেন তা সংকোচন প্রভাব এবং আরও বিশেষত কারণ আপনি আপনার আসল নিখুঁত-ভারসাম্য নকশাকে অ-নিখুঁত-ভারসাম্য অনুপস্থিত মানগুলির সাথে বিকৃত করেছেন orted

রেফ 1: ডগলাস বেটস lme4: আর-এর মিশ্রিত-প্রভাব মডেলিং , পৃষ্ঠা 71-72

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.