জেনারাইজড অ্যাডিটিভ মডেল (জিএএমএস), ইন্টারঅ্যাকশন এবং কোভারিয়েট


12

আমি পূর্বাভাসের জন্য বেশ কয়েকটি সরঞ্জাম অন্বেষণ করেছি এবং জেনারালাইজড অ্যাডিটিভ মডেলস (জিএএম) এই উদ্দেশ্যে সর্বাধিক সম্ভাবনা পেয়েছি। গ্যামস দুর্দান্ত! তারা জটিল মডেলগুলিকে খুব সংক্ষিপ্তভাবে নির্দিষ্ট করার অনুমতি দেয়। তবে, একই একই সংযোগটি আমাকে কিছুটা বিভ্রান্তির কারণ করছে, বিশেষ করে জিএএমরা কীভাবে ইন্টারঅ্যাকশন শর্তাদি এবং কোভেরিয়েটগুলি সম্পর্কে ধারণা দেয়।

উদাহরণস্বরূপ ডেটা সেট (পোস্টের শেষে পুনরুত্পাদনযোগ্য কোড) বিবেচনা করুন যার মধ্যে yকয়েকজন গাউসিয়ান দ্বারা বিভক্ত একঘেয়ে ফাংশন এবং কিছুটা গোলমাল:

এখানে চিত্র বর্ণনা লিখুন

ডেটা সেটটিতে কয়েকটি পূর্বাভাসীর ভেরিয়েবল রয়েছে:

  • x: তথ্য সূচী (1-100)।
  • w: yগৌসিয়ান যেখানে উপস্থিত রয়েছে তার বিভাগগুলি চিহ্নিত করে এমন একটি গৌণ বৈশিষ্ট্য । 11 এবং 30 এবং 51 থেকে 70 এর মধ্যে wথাকা 1-20 এর মান রয়েছে Otherwise xঅন্যথায়, w0 হয়।
  • w2: w + 1, যাতে কোনও 0 মান থাকে না।

আর এর mgcvপ্যাকেজটি এই ডেটার জন্য কয়েকটি সম্ভাব্য মডেল নির্দিষ্ট করা সহজ করে তোলে:

এখানে চিত্র বর্ণনা লিখুন

মডেল 1 এবং 2 মোটামুটি স্বজ্ঞাত। ডিফল্ট মসৃণতায় yসূচকের মান থেকে কেবল ভবিষ্যদ্বাণী করা xঅস্পষ্টভাবে সঠিক কিছু তৈরি করে তবে খুব মসৃণ। yকেবলমাত্র wউপস্থিত "গড় গসিয়ান" মডেল উপস্থিত ফলাফল থেকে ভবিষ্যদ্বাণী করা yএবং অন্যান্য তথ্য পয়েন্টগুলির কোনও "সচেতনতা" নেই, যার সবকটিরই wমান 0 থাকে।

মডেল 3 উভয় xএবং w1 ডি মসৃণ হিসাবে ব্যবহার করে, একটি দুর্দান্ত ফিট তৈরি করে। মডেল 4 টি 2 ডি মসৃণ ব্যবহার করে xএবং wএকটি দুর্দান্ত ফিট দেয়। এই দুটি মডেল অভিন্ন হলেও একই রকম similar

মডেল 5 মডেল x"বাই" w। মডেল 6 বিপরীতে না। mgcvএর ডকুমেন্টেশনে উল্লেখ করা হয়েছে যে "যুক্তি দ্বারা যুক্তিটি নিশ্চিত করে যে মসৃণ ফাংশনটি ['আর্গুমেন্টে' দ্বারা প্রদত্ত কোভেরিয়েট] দ্বারা" বহুগুণ হয়ে যায় "। সুতরাং মডেলগুলি 5 এবং 6 এর সমতুল হওয়া উচিত নয়?

7 এবং 8 মডেলগুলি পূর্বাভাসকারীদের মধ্যে একটি লিনিয়ার শব্দ হিসাবে ব্যবহার করে। এগুলি আমার কাছে স্বজ্ঞাত জ্ঞান তৈরি করে, কারণ তারা জিএলএম এই ভবিষ্যদ্বাণীকারীদের সাথে কেবল কী করবে এবং তারপরে বাকি মডেলের প্রভাবটি যুক্ত করবে।

শেষ অবধি, মডেল 9 মডেল 5 এর সমান, এটি x"বাই" দ্বারা w2(যা w + 1) স্মুথ করা ছাড়া । এখানে আমার কাছে আশ্চর্যের বিষয়টি হ'ল শূন্যগুলির অনুপস্থিতি w2"বাই" ইন্টারঅ্যাকশনটিতে একটি উল্লেখযোগ্যভাবে আলাদা প্রভাব তৈরি করে।

সুতরাং, আমার প্রশ্নগুলি এগুলি:

  • মডেল 3 এবং 4 এর স্পেসিফিকেশনের মধ্যে পার্থক্য কী? আরও কিছু উদাহরণ রয়েছে যা আরও স্পষ্টভাবে পার্থক্যটি আঁকতে পারে?
  • ঠিক এখানে, "দ্বারা" কি করছে? উডের বইতে এবং এই ওয়েবসাইটটিতে যা পড়েছি তার বেশিরভাগটিই সুপারিশ করে যে "বাই" একটি গুণগত প্রভাব এনে দেয় তবে এর অনুভূতিটি উপলব্ধি করতে আমার সমস্যা হচ্ছে।
  • মডেল 5 এবং 9 এর মধ্যে কেন এইরকম উল্লেখযোগ্য পার্থক্য থাকবে?

রেপ্রেক্স অনুসরণ করে, আরে লেখা হয়েছে।

library(magrittr)
library(tidyverse)
library(mgcv)

set.seed(1222)
data.ex <- tibble(
  x = 1:100,
  w = c(rep(0, 10), 1:20, rep(0, 20), 1:20, rep(0, 30)),
  w2 = w + 1,
  y = dnorm(x, mean = rep(c(20, 60), each = 50), sd = 3) + (seq(0, 1, length = 100)^2) / 2 + rnorm(100, sd = 0.01)
)

models <- tibble(
  model = 1:9,
  formula = c('y ~ s(x)', 'y ~ s(w)', 'y ~ s(x) + s(w)', 'y ~ s(x, w)', 'y ~ s(x, by = w)', 'y ~ s(w, by = x)', 'y ~ x + s(w)', 'y ~ w + s(x)', 'y ~ s(x, by = w2)'),
  gam = map(formula, function(x) gam(as.formula(x), data = data.ex)),
  data.to.plot = map(gam, function(x) cbind(data.ex, predicted = predict(x)))
)

plot.models <- unnest(models, data.to.plot) %>%
  mutate(facet = sprintf('%i: %s', model, formula)) %>%
  ggplot(data = ., aes(x = x, y = y)) +
  geom_point() +
  geom_line(aes(y = predicted), color = 'red') +
  facet_wrap(facets = ~facet)
print(plot.models)

পরিদর্শনকারীদের নির্ভরতা হিসাবে পরিপাটি প্যাকেজটি ব্যবহার করতে এখানে লোকেরা এটি সামান্য অসামাজিক social আমি এই প্যাকেজগুলির মধ্যে বেশ কয়েকটি ব্যবহার করি এবং এখনও আপনার কোডটি চালানোর জন্য আমার একটি ইনস্টল ফেস্ট প্রয়োজন। ন্যূনতম , অর্থাৎ প্রয়োজনীয় প্যাকেজগুলির তালিকা তৈরি করা আরও কার্যকর হত। এটি বলেছিল, নিন্দার জন্য ধন্যবাদ; আমি এখনই এটি চালাচ্ছি
মনিকা পুনরায় ইনস্টল করুন - জি সিম্পসন

উত্তর:


11

প্রশ্ন 1 3 এবং 4 মডেলের মধ্যে পার্থক্য কি?

মডেল 3 খাঁটি সংযোজনীয় মডেল

y=α+f1(x)+f2(w)+ε

αxw

মডেল 4 হ'ল দুটি ক্রমাগত ভেরিয়েবলের একটি মসৃণ মিথস্ক্রিয়া

y=α+f1(x,w)+ε

wxxwf1(x)predict()xwtype = 'terms'predict()s(x)

xw

xwte()

m4a <- gam(y ~ te(x, w), data = data.ex, method = 'REML')

pdata <- mutate(data.ex, Fittedm4a = predict(m4a))
ggplot(pdata, aes(x = x, y = y)) +
  geom_point() +
  geom_line(aes(y = Fittedm4a), col = 'red')

এখানে চিত্র বর্ণনা লিখুন

এক অর্থে, মডেল 4 উপযুক্ত

y=α+f1(x)+f2(w)+f3(x,w)+ε

f3xwf3

m4b <- gam(y ~ ti(x) + ti(w) + ti(x, w), data = data.ex, method = 'REML')

তবে এই অনুমানটি 4 টি স্বাচ্ছন্দ্যের পরামিতিগুলি নোট করুন:

  1. এর মূল মসৃণ প্রভাবের সাথে সম্পর্কিতx
  2. w
  3. প্রান্তিক মসৃণ সঙ্গে যুক্ত একx
  4. w

te()মডেল মাত্র দুই স্নিগ্ধতা প্যারামিটার, প্রান্তিক ভিত্তিতে প্রতি এক ধারণ করে।

www2

প্রশ্ন 2, এখানে "কাজ করে" ঠিক কী?

bybybywwx

y=α+f1(x)w+ε

xβ1wwxx

প্রশ্ন 3 মডেল 5 এবং 9 এর মধ্যে কেন এইরকম উল্লেখযোগ্য পার্থক্য থাকবে?

f1(x)wf1(x)×0=0f1(x)×1=f1(x)wf1(x)w

www


এটি কিউ 1 এর একটি সহায়ক উত্তর, ধন্যবাদ! 1 ডি স্মুড বা একটি একক 2 ডি স্মুথের যোগফলগুলির পছন্দটি স্ট্যান্ডার্ড রৈখিক মডেলিংয়ের ক্রিয়াকলাপের বনাম মূল প্রভাবগুলির সাথে প্রায় (আবার মোটামুটি ) সমান মনে হয় । তবে এটি byপ্যারামিটারটির অস্তিত্বকে আরও বিভ্রান্ত করে তোলে ।
jdobres

আমি এখন কিউ 2 তে কিছু যুক্ত করেছি, যা আশাবাদী সেই মডেলগুলি কী করছে তা ব্যাখ্যা করে। আমি এখন Q3 তাকান।
মনিকা পুনরায় ইনস্টল করুন - জি সিম্পসন

আমি মনে করি কিউ 3 এর উত্তর হ'ল 5 এবং 9 সালে মডেলগুলির পরিবর্তিত-গুণফলের অংশের সাথে কথোপকথনের একটি সহজ সমস্যা
পুনর্নির্মাণ মনিকা - জি। সিম্পসন

খুব উপকারী! Q2 স্পষ্ট করার জন্য, আপনি কি বলছেন যে "বাই" যুক্তিতে প্রদত্ত ভবিষ্যদ্বাণীটি মূলত স্মুথড প্রেডিকটারের ফলাফলের জন্য অতিরিক্ত গুণাগুণ হয়ে যায়? আমি সন্দেহ করি যে আমার
স্বজ্ঞাততাটি

α+f1(w)α+f1(x)wwwxwwxw
মনিকা পুনরায় ইনস্টল করুন - জি সিম্পসন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.