দ্বিপদী প্রতিক্রিয়ার জন্য একটি হেটেরোসেসটাস্টিক জেনারেলাইজড লিনিয়ার মডেল ফিট করা

আমার নিম্নলিখিত পরীক্ষামূলক ডিজাইন থেকে ডেটা রয়েছে: আমার পর্যবেক্ষণগুলি সাফল্যের সংখ্যার গণনা ( K) ট্রায়ালগুলির সাথে সম্পর্কিত সংখ্যার ( ) এর বাইরে, Nপ্রতিটি Iব্যক্তিদের সমন্বয়ে গঠিত দুটি গ্রুপের জন্য পরিমাপ করা হয় , Tচিকিত্সা থেকে , যেখানে প্রতিটি যেমন ফ্যাক্টর সংমিশ্রণে Rপ্রতিলিপি রয়েছে । অতএব, সামগ্রিকভাবে আমার কাছে 2 * I * T * R K 's এবং এর সাথে সম্পর্কিত এন s

তথ্য জীববিজ্ঞান থেকে। প্রতিটি পৃথক একটি জিন যার জন্য আমি দুটি বিকল্প ফর্মের এক্সপ্রেশন স্তর পরিমাপ করি (বিকল্প স্প্লাইসিং নামে পরিচিত একটি ঘটনার কারণে)। সুতরাং, কে ফর্মগুলির একটির প্রকাশের স্তর এবং এন দুটি রূপের এক্সপ্রেশন স্তরের যোগফল। একটি একক প্রকাশ কপিতে দুই ফর্ম মধ্যে পছন্দ একটি বের্নুলির পরীক্ষা গণ্য করা হয়, অত K থেকে বের এনঅনুলিপি একটি দ্বিপদী অনুসরণ করে। প্রতিটি গ্রুপে 20 ডলার বিভিন্ন জিন থাকে এবং প্রতিটি গ্রুপের জিনের কিছু সাধারণ ফাংশন থাকে যা দুটি গ্রুপের মধ্যে আলাদা। প্রতিটি গ্রুপের প্রতিটি জিনের জন্য আমার তিনটি আলাদা টিস্যু (চিকিত্সা) এর প্রতিটি থেকে 30 ডলার এর পরিমাপ রয়েছে। আমি গ্রুপ / চিকিত্সা কে / এন এর বৈচিত্র উপর যে প্রভাব ফেলেছে তা অনুমান করতে চাই।

জিনের এক্সপ্রেশনটি অতিমাত্রায় বিভক্ত বলে জানা যায় তাই নীচের কোডে নেতিবাচক দ্বিপদী ব্যবহার।

যেমন, Rসিমুলেটেড ডেটার কোড:

library(MASS)
set.seed(1)
I = 20 # individuals in each group
G = 2  # groups
T = 3  # treatments
R = 30 # replicates of each individual, in each group, in each treatment

groups     = letters[1:G]
ids        = c(sapply(groups, function(g){ paste(rep(g, I), 1:I, sep=".") }))
treatments = paste(rep("t", T), 1:T, sep=".")
 # create random mean number of trials for each individual and 
 #  dispersion values to simulate trials from a negative binomial:
mean.trials = rlnorm(length(ids), meanlog=10, sdlog=1)
thetas      = 10^6/mean.trials
 # create the underlying success probability for each individual:
p.vec = runif(length(ids), min=0, max=1)
 # create a dispersion factor for each success probability, where the 
 #  individuals of group 2 have higher dispersion thus creating a group effect:
dispersion.vec = c(runif(length(ids)/2, min=0, max=0.1),
                   runif(length(ids)/2, min=0, max=0.2))
 # create empty an data.frame:
data.df = data.frame(id=rep(sapply(ids, function(i){ rep(i, R) }), T),
                     group=rep(sapply(groups, function(g){ rep(g, I*R) }), T),
                     treatment=c(sapply(treatments, 
                                        function(t){ rep(t, length(ids)*R) })),
                     N=rep(NA, length(ids)*T*R), 
                     K=rep(NA, length(ids)*T*R) )
 # fill N's and K's - trials and successes
for(i in 1:length(ids)){
  N     = rnegbin(T*R, mu=mean.trials[i], theta=thetas[i])
  probs = runif(T*R, min=max((1-dispersion.vec[i])*p.vec[i],0),
                max=min((1+dispersion.vec)*p.vec[i],1))
  K     = rbinom(T*R, N, probs)
  data.df$N[which(as.character(data.df$id) == ids[i])] = N
  data.df$K[which(as.character(data.df$id) == ids[i])] = K
}

আমি গ্রুপ এবং চিকিত্সা সাফল্যের সম্ভাবনা (যেমন, K/N) এর বিচ্ছুরণের (বা বৈকল্পিক) উপর যে প্রভাব ফেলে তা অনুমান করতে আগ্রহী । অতএব আমি একটি উপযুক্ত গ্ল্যামের সন্ধান করছি যেখানে প্রতিক্রিয়া কে / এন হয় তবে প্রতিক্রিয়াটির প্রত্যাশিত মানকে মডেলিংয়ের পাশাপাশি প্রতিক্রিয়াটির বৈচিত্রটিও মডেল করা হয়।

স্পষ্টতই, দ্বিপদী সাফল্যের সম্ভাবনার বৈচিত্রটি বিচারের সংখ্যা এবং অন্তর্নিহিত সাফল্যের সম্ভাবনা দ্বারা প্রভাবিত হয় (পরীক্ষার সংখ্যা বেশি এবং ততই চূড়ান্ত অন্তর্নিহিত সাফল্যের সম্ভাবনা (যেমন, 0 বা 1 এর কাছাকাছি)) কম সাফল্যের সম্ভাবনার বৈচিত্র), তাই আমি পরীক্ষার সংখ্যা এবং অন্তর্নিহিত সাফল্যের সম্ভাবনার বাইরেও গ্রুপ এবং চিকিত্সার অবদানের ক্ষেত্রে প্রধানত আগ্রহী। আমার ধারণা, প্রতিক্রিয়াতে আরকসিন স্কোয়ার রুটের রূপান্তরটি প্রয়োগ করা উত্তরোত্তর দূর করবে তবে পরীক্ষার সংখ্যার তুলনায় নয়।

যদিও নকশার উপরের সিমুলেটেড উদাহরণে ডেটা ভারসাম্যযুক্ত (দুটি গ্রুপের প্রতিটি ব্যক্তির সমান সংখ্যক এবং প্রতিটি চিকিত্সার প্রতিটি গ্রুপের প্রতিটি ব্যক্তির একই সংখ্যার প্রতিরূপ), আমার আসল তথ্যগুলিতে এটি নেই - দুটি গ্রুপই করে ব্যক্তির সমান সংখ্যা নেই এবং প্রতিলিপিগুলির সংখ্যা পৃথক হয়। এছাড়াও, আমি কল্পনা করতাম ব্যক্তিটিকে একটি এলোমেলো প্রভাব হিসাবে সেট করা উচিত।

প্রতিটি ব্যক্তির আনুমানিক সাফল্যের সম্ভাবনা (পি টুপি = কে / এন হিসাবে চিহ্নিত) এর নমুনা গড়ের নমুনা বৈকল্পিকের প্লট করা বোঝায় যে চূড়ান্ত সাফল্যের সম্ভাবনাগুলি কম বৈকল্পিক রয়েছে: এখানে চিত্র বর্ণনা লিখুন

যখন আর্সিন স্কোয়ার রুটের ভিন্নতা স্থিতিশীল রূপান্তর (আরকসিন (স্কয়ার্ট (পি টুপি) হিসাবে চিহ্নিত) ব্যবহার করে অনুমানিত সাফল্যের সম্ভাবনাগুলি রূপান্তরিত হয়: এখানে চিত্র বর্ণনা লিখুন

রূপান্তরিত আনুমানিক সাফল্যের সম্ভাবনাগুলির বনাম গড় এন এর নমুনা বৈকল্পিক স্থাপন করা প্রত্যাশিত নেতিবাচক সম্পর্কটি দেখায়: এখানে চিত্র বর্ণনা লিখুন

দুটি গোষ্ঠীর জন্য রুপান্তরিত আনুমানিক সাফল্যের সম্ভাবনার নমুনা বৈকল্পিকতা দেখানো থেকে বোঝা যায় যে গ্রুপ বিতে কিছুটা উচ্চতর রূপ রয়েছে, যা আমি এইভাবে ডেটা সিমুলেটেড করেছি: এখানে চিত্র বর্ণনা লিখুন

অবশেষে, তিনটি চিকিত্সার জন্য রুপান্তরিত আনুমানিক সাফল্যের সম্ভাবনার নমুনা বৈচিত্রের চক্রান্ত চিকিত্সার মধ্যে কোনও পার্থক্য দেখায় না, যা আমি এইভাবে ডেটা সিমুলেটেড করেছি: এখানে চিত্র বর্ণনা লিখুন

সাফল্যের সম্ভাবনার বৈকল্পিকতায় আমি গ্রুপ এবং চিকিত্সার প্রভাবগুলির পরিমাণ জানাতে পারি এমন কোন রৈখিক মডেলের কোনও রূপ আছে কি?

সম্ভবত কোনও হেটেরোসেসটেস্টিক জেনারেলাইজড লিনিয়ার মডেল বা লগলাইনার বৈকল্পিক মডেলের কোনও রূপ?

একটি মডেলের পংক্তির মধ্যে যা E (y) = Xβ এর সাথে ভেরিয়েন্স (y) = Zλ কে মডেল করে, যেখানে জেড এবং এক্স যথাক্রমে গড় এবং বৈকল্পিকের রেজিস্টার, যা আমার ক্ষেত্রে অভিন্ন এবং অন্তর্ভুক্ত থাকবে চিকিত্সা (স্তরের t.1, t.2, এবং t.3) এবং গ্রুপ (স্তর a এবং b), এবং সম্ভবত এন এবং আর, এবং তাই λ এবং their তাদের সম্পর্কিত প্রভাবগুলি অনুমান করবে।

বিকল্পভাবে, আমি প্রতিটি চিকিত্সার প্রতিটি গ্রুপের প্রতিটি জিনের প্রতিলিপি জুড়ে নমুনার বৈকল্পিকগুলিতে একটি মডেল ফিট করতে পারি, এমন একটি গ্ল্যাম ব্যবহার করে যা প্রতিক্রিয়ার প্রত্যাশিত মানকে কেবল মডেল করে। এখানে একমাত্র প্রশ্ন হ'ল কীভাবে বিভিন্ন জিনের বিভিন্ন সংখ্যার প্রতিরূপ রয়েছে তার জন্য অ্যাকাউন্ট করতে হয়। আমি মনে করি কোনও গ্ল্যামের ওজন সেগুলির জন্য হতে পারে (আরও প্রতিলিপিগুলির উপর ভিত্তি করে নমুনা রূপগুলির উচ্চতর ওজন হওয়া উচিত) তবে ঠিক কোন ওজনটি নির্ধারণ করা উচিত?

দ্রষ্টব্য: আমি dglmআর প্যাকেজটি ব্যবহার করার চেষ্টা করেছি :

library(dglm)
dglm.fit = dglm(formula = K/N ~ 1, dformula = ~ group + treatment, family = quasibinomial, weights = N, data = data.df)
summary(dglm.fit)
Call: dglm(formula = K/N ~ 1, dformula = ~group + treatment, family = quasibinomial, 
    data = data.df, weights = N)

Mean Coefficients:
               Estimate Std. Error   t value     Pr(>|t|)
(Intercept) -0.09735366 0.01648905 -5.904138 3.873478e-09
(Dispersion Parameters for quasibinomial family estimated as below )

    Scaled Null Deviance: 3600 on 3599 degrees of freedom
Scaled Residual Deviance: 3600 on 3599 degrees of freedom

Dispersion Coefficients:
                Estimate Std. Error      z value  Pr(>|z|)
(Intercept)  9.140517930 0.04409586 207.28746254 0.0000000
group       -0.071009599 0.04714045  -1.50634107 0.1319796
treatment   -0.001469108 0.02886751  -0.05089138 0.9594121
(Dispersion parameter for Gamma family taken to be 2 )

    Scaled Null Deviance: 3561.3 on 3599 degrees of freedom
Scaled Residual Deviance: 3559.028 on 3597 degrees of freedom

Minus Twice the Log-Likelihood: 29.44568 
Number of Alternating Iterations: 5

ডিজিএলএম.ফিট অনুসারে গ্রুপ এফেক্ট বেশ দুর্বল। আমি ভাবছি মডেলটি সঠিকভাবে সেট করা আছে বা এই মডেলটির শক্তি is

— user1701545
সূত্র

এটি কিছুটা অস্বচ্ছ। আপনার পরিস্থিতি কী তা আপনি আরও নির্দিষ্ট করে বলতে পারেন, সম্ভবত কংক্রিটের ভাষায়?

— গুং - মনিকা পুনরায়

আমি আমার পোস্ট সম্পাদনা করেছি। তবে সাধারণভাবে, আমি এমন এক গ্ল্যামের সন্ধান করছি যা E (y) = Xβ, মডেলগুলি ভেরিয়েন্স (y) = Zλ ছাড়াও যেখানে এক্স এর কলামগুলি প্রতিক্রিয়াটির জন্য রেজিস্টার এবং জেড এর কলামগুলি হ'ল প্রতিক্রিয়াটির বৈকল্পিকতার জন্য নিবন্ধকগণ এবং β এবং λ হ'ল প্যারামিটার যা যথাক্রমে গড় এবং বৈকল্পিকতার উপর তাদের প্রভাবগুলি অনুমান করে।

— ব্যবহারকারী1701545

আমি অনেক কিছু সংগ্রহ করি, তবে এ জাতীয় উদ্বেগজনক শর্তে এটির মাধ্যমে চিন্তা করা কঠিন। আপনি কোনও এক্স বা জেড ভেরিয়েবল আলোচনা করবেন না, যেমন। আপনার গবেষণা সম্পর্কে কি? আপনার ডেটা কি? ইত্যাদি

— গাং - মনিকা পুনরায়

কোনও সমস্যা নেই - আপডেট হওয়া পোস্টটি দেখুন।

— user1701545

সম্ভবত আপনি যা সন্ধান করছেন তাকে ডাবল জেনারেলাইজড লিনিয়ার মডেল বলা হয় যেখানে উভয়টির অর্থ এবং ছড়িয়ে পড়া প্যারামিটার মডেল করা হয়। এমন একটি মডেল ফিট করার জন্য একটি আর প্যাকেজ ডিজিএলএম রয়েছে ।

— user3897081
সূত্র