ইন R
, glm
ফাংশনটি ব্যবহার করে লজিস্টিক রিগ্রেশনটির জন্য ইনপুট ডেটা ফর্ম্যাট করার জন্য তিনটি পদ্ধতি রয়েছে :
- প্রতিটি পর্যবেক্ষণের জন্য ডেটা "বাইনারি" ফর্ম্যাটে থাকতে পারে (উদাহরণস্বরূপ, প্রতিটি পর্যবেক্ষণের জন্য y = 0 বা 1);
- ডেটা "উইলকিনসন-রজার্স" ফর্ম্যাটে থাকতে পারে (যেমন,
y = cbind(success, failure)
) প্রতিটি সারিতে একটি করে চিকিত্সা উপস্থাপন করে; অথবা - প্রতিটি পর্যবেক্ষণের জন্য ডেটা ওজনযুক্ত বিন্যাসে থাকতে পারে (যেমন, y = 0.3, ওজন = 10)।
তিনটি পদ্ধতিরই একই গুণফলের অনুমান করা যায় তবে স্বাধীনতার ডিগ্রি এবং ফলস্বরূপ বিবর্তন মান এবং এআইসি স্কোরগুলির মধ্যে পৃথক হয়। শেষ দুটি পদ্ধতিতে কম পর্যবেক্ষণ রয়েছে (এবং তাই স্বাধীনতার ডিগ্রি) কারণ তারা প্রতিটি চিকিত্সা পর্যবেক্ষণের সংখ্যার জন্য ব্যবহার করে যেখানে প্রথম পর্যবেক্ষণের সংখ্যার জন্য প্রতিটি পর্যবেক্ষণ ব্যবহার করে।
আমার প্রশ্ন: একটি ইনপুট ফর্ম্যাট অন্যের উপর ব্যবহার করার জন্য সংখ্যাসূচক বা পরিসংখ্যানগত সুবিধা রয়েছে কি? আমি দেখতে পেলাম কেবলমাত্র সুবিধাটি হ'ল R
মডেলের সাথে ব্যবহার করতে কারও ডেটা পুনরায় ফর্ম্যাট করা ।
আমি গ্ল্যাম ডকুমেন্টেশন দেখেছি , ওয়েবে এবং এই সাইটে অনুসন্ধান করেছি এবং একটি স্পর্শকাতর সম্পর্কিত পোস্ট পেয়েছি , তবে এই বিষয়ে কোনও গাইডেন্স নেই।
এখানে একটি অনুকরণীয় উদাহরণ যা এই আচরণটি দেখায়:
# Write function to help simulate data
drc4 <- function(x, b =1.0, c = 0, d = 1, e = 0){
(d - c)/ (1 + exp(-b * (log(x) - log(e))))
}
# simulate long form of dataset
nReps = 20
dfLong <- data.frame(dose = rep(seq(0, 10, by = 2), each = nReps))
dfLong$mortality <-rbinom(n = dim(dfLong)[1], size = 1,
prob = drc4(dfLong$dose, b = 2, e = 5))
# aggregate to create short form of dataset
dfShort <- aggregate(dfLong$mortality, by = list(dfLong$dose),
FUN = sum)
colnames(dfShort) <- c("dose", "mortality")
dfShort$survival <- nReps - dfShort$mortality
dfShort$nReps <- nReps
dfShort$mortalityP <- dfShort$mortality / dfShort$nReps
fitShort <- glm( cbind(mortality, survival) ~ dose,
data = dfShort,
family = "binomial")
summary(fitShort)
fitShortP <- glm( mortalityP ~ dose, data = dfShort,
weights = nReps,
family = "binomial")
summary(fitShortP)
fitLong <- glm( mortality ~ dose, data = dfLong,
family = "binomial")
summary(fitLong)
svyglm
জরিপ প্যাকেজ থেকে আপনাকে ওজন যুক্তি পরিচালনা করার আরও ভাল পদ্ধতি দেয়।