ও'হারা এবং কোটজির কাগজ (বাস্তুশাস্ত্র ও বিবর্তনের পদ্ধতিসমূহ 1: 118–122) আলোচনার জন্য ভাল সূচনা পয়েন্ট নয়। আমার সবচেয়ে গুরুতর উদ্বেগ হ'ল সংক্ষিপ্তসার 4 পয়েন্টে দাবি:
আমরা দেখতে পেয়েছি যে রূপান্তরগুলি খারাপভাবে সম্পাদন করেছে except । .. কোয়েস-পোইসন এবং নেতিবাচক দ্বিপদী মডেলগুলি ... [দেখানো] সামান্য পক্ষপাতিত্ব।
λθλ যে তদন্ত করা হয়, অত্যন্ত ইতিবাচক স্কিউ হয়। লাগানো সাধারণ বিতরণের মাধ্যমগুলি লগ (y + c) (সি অফসেট) এর স্কেলগুলিতে থাকে এবং E (লগ (y + c)] অনুমান করে y এই বিতরণটি প্রতিস্থাপনের তুলনায় প্রতিসমের চেয়ে অনেক বেশি কাছাকাছি ।
λ
নিম্নলিখিত আর কোডটি পয়েন্টটি তুলে ধরে:
x <- rnbinom(10000, 0.5, mu=2)
## NB: Above, this 'mu' was our lambda. Confusing, is'nt it?
log(mean(x+1))
[1] 1.09631
log(2+1) ## Check that this is about right
[1] 1.098612
mean(log(x+1))
[1] 0.7317908
বা চেষ্টা করুন
log(mean(x+.5))
[1] 0.9135269
mean(log(x+.5))
[1] 0.3270837
যে স্কেলটির উপর প্যারামিটারগুলি অনুমান করা হয় তা একটি দুর্দান্ত ব্যাপার!
λ মান 10 বা ক্রম হয় তবে মডেলিং লগের জন্য (y + 1) মানক সাধারণ তত্ত্বটি ব্যবহার করে।
নোট করুন যে স্ট্যান্ডার্ড ডায়াগনস্টিকস লগ (x + সি) এর স্কেলে আরও ভাল কাজ করে। গ এর পছন্দটি খুব বেশি গুরুত্ব পাবে না; প্রায়শই 0.5 বা 1.0 বোঝায়। এছাড়াও এটি বক্স-কক্স রূপান্তরগুলি, বা বক্স-কক্সের ইয়েও-জনসন রূপটি অনুসন্ধানের জন্য আরও ভাল সূচনা পয়েন্ট। [ইয়েও, আই। এবং জনসন, আর। (2000)]। আর এর গাড়ি প্যাকেজে পাওয়ার ট্রান্সফর্ম () এর জন্য সহায়তা পৃষ্ঠাটি আরও দেখুন। আর-র গ্যাম্লাস প্যাকেজটি negativeণাত্মক দ্বিপদী প্রকার I (সাধারণ বিভিন্ন) বা II, বা অন্যান্য বিতরণগুলিকে ফিট করতে পারে যা 0 (= লগ, অর্থাত, লগ লিঙ্ক) বা আরও বেশি সংখ্যার পাওয়ার ট্রান্সফর্ম লিঙ্কগুলির সাথে বিচ্ছুরণের গড় হিসাবে মডেল করে । ফিটস সবসময় একত্রিত হতে পারে না।
উদাহরণ: মৃত্যুর বনাম বেস ড্যামেজ
ডেটা মার্কিন যুক্তরাষ্ট্রের মূল ভূখণ্ডে পৌঁছে যাওয়া আটলান্টিক হারিকেনের জন্য। আর এর জন্য ডিএএজি প্যাকেজটির সাম্প্রতিক প্রকাশ থেকে ডেটা (নাম হারিকনাম ) পাওয়া যায়। ডেটার সহায়তা পৃষ্ঠায় বিশদ রয়েছে।
গ্রাফটি গ্রাফের y- অক্ষের জন্য ব্যবহৃত লগের (গণনা + 1) স্কেলটিতে লগ লিঙ্কের সাথে নেতিবাচক দ্বিপদী ফিটকে পরিবর্তিত করে একটি শক্তিশালী লিনিয়ার মডেল ফিট ব্যবহার করে প্রাপ্ত একটি উপযুক্ত লাইনের সাথে তুলনা করে fit (নোট করুন যে একই লক্ষে নেতিবাচক দ্বিপদী ফিট থেকে পয়েন্টগুলি এবং লাগানো "লাইন" প্রদর্শন করার জন্য ধনাত্মক সি সহ একটি লগ (গণনা + সি) স্কেলের অনুরূপ কিছু ব্যবহার করতে হবে)) বড় বায়াসটি নোট করুন লগ স্কেল নেতিবাচক দ্বিপদী ফিট জন্য সুস্পষ্ট। শক্তিশালী রৈখিক মডেল ফিট এই স্কেলগুলিতে অনেক কম পক্ষপাতী, যদি কেউ গণনার জন্য নেতিবাচক দ্বিপদী বিতরণ ধরে নেয়। একটি লিনিয়ার মডেল ফিট শাস্ত্রীয় স্বাভাবিক তত্ত্ব অনুমানের অধীনে পক্ষপাতহীন হবে। আমি প্রথম যখন তৈরি করলাম তখন উপরের গ্রাফটি মূলত কী ছিল তা অবাক করে দিয়েছিলাম! একটি বক্ররেখা ডেটা আরও ভাল ফিট করতে পারে, তবে পার্থক্যটি পরিসংখ্যানগত পরিবর্তনশীলতার স্বাভাবিক মানের সীমার মধ্যে। শক্তিশালী রৈখিক মডেল ফিট স্কেলের নিম্ন প্রান্তে গণনার জন্য একটি দুর্বল কাজ করে।
দ্রষ্টব্য --- আরএনএ-সেক ডেটার সাথে অধ্যয়ন: জিনের এক্সপ্রেশন পরীক্ষায় গণনা সম্পর্কিত তথ্য বিশ্লেষণের জন্য দুটি শৈলীর মডেলের তুলনা আগ্রহী। নিম্নলিখিত কাগজ লগ সঙ্গে কাজ, একটি শক্তসমর্থ রৈখিক মডেল ব্যবহার তুলনা (1 COUNT +), নেতিবাচক দ্বিপদ ফিট ব্যবহার (Bioconductor প্যাকেজের মধ্যে হিসাবে edgeR )। প্রাথমিকভাবে মনে রাখা আরএনএ-সিক অ্যাপ্লিকেশনটিতে বেশিরভাগ গণনাগুলি যথেষ্ট পরিমাণে যথাযথভাবে ভারী লগ-লিনিয়ার মডেলটির পক্ষে খুব ভাল কাজ করে।
আইন, সিডব্লিউ, চেন, ওয়াই, শি, ডাব্লু, স্মিথ, জিকে (2014)। ভুম: আরএনএ-সেক রিডের গণনার জন্য যথার্থ ওজন আনলক রৈখিক মডেল বিশ্লেষণ সরঞ্জামগুলি। জিনোম বায়োলজি 15, আর 29। http://genomebiology.com/2014/15/2/R29
এনবি সাম্প্রতিক কাগজও:
শর্চ এনজে, শোফিল্ড পি, গিয়েরিলস্কি এম, কোল সি, শেরস্টনিভ এ, সিং ভি, র্রোবেল এন, ঘারবি কে, সিম্পসন জিজি, ওভেন-হিউজ টি, ব্ল্যাকস্টার এম, বার্টন জিজে (২০১))। আরএনএ-সিক পরীক্ষায় কতটি জৈবিক প্রতিরূপ প্রয়োজন এবং আপনার কোন ডিফারেনশিয়াল এক্সপ্রেশন সরঞ্জামটি ব্যবহার করা উচিত? আরএনএ
http://www.rnajorter.org/cgi/doi/10.1261/rna.053959.115
এটা মজার যে রৈখিক মডেল ব্যবহার তড়কা limma প্যাকেজ (মত edgeR , WEHI গ্রুপ থেকে) পর্যন্ত অত্যন্ত ভাল, দাঁড়াও, অনেক প্রতিলিপি সঙ্গে ফলাফলে আপেক্ষিক (পক্ষপাত সামান্য প্রমাণ দেখাচ্ছে অর্থে) প্রতিলিপি সংখ্যা যেমন হ্রাস পেয়েছে।
উপরের গ্রাফের জন্য আর কোড:
library(latticeExtra, quietly=TRUE)
hurricNamed <- DAAG::hurricNamed
ytxt <- c(0, 1, 3, 10, 30, 100, 300, 1000)
xtxt <- c(1,10, 100, 1000, 10000, 100000, 1000000 )
funy <- function(y)log(y+1)
gph <- xyplot(funy(deaths) ~ log(BaseDam2014), groups= mf, data=hurricNamed,
scales=list(y=list(at=funy(ytxt), labels=paste(ytxt)),
x=list(at=log(xtxt), labels=paste(xtxt))),
xlab = "Base Damage (millions of 2014 US$); log transformed scale",
ylab="Deaths; log transformed; offset=1",
auto.key=list(columns=2),
par.settings=simpleTheme(col=c("red","blue"), pch=16))
gph2 <- gph + layer(panel.text(x[c(13,84)], y[c(13,84)],
labels=hurricNamed[c(13,84), "Name"], pos=3,
col="gray30", cex=0.8),
panel.text(x[c(13,84)], y[c(13,84)],
labels=hurricNamed[c(13,84), "Year"], pos=1,
col="gray30", cex=0.8))
ab <- coef(MASS::rlm(funy(deaths) ~ log(BaseDam2014), data=hurricNamed))
gph3 <- gph2+layer(panel.abline(ab[1], b=ab[2], col="gray30", alpha=0.4))
## 100 points that are evenly spread on a log(BaseDam2014) scale
x <- with(hurricNamed, pretty(log(BaseDam2014),100))
df <- data.frame(BaseDam2014=exp(x[x>0]))
hurr.nb <- MASS::glm.nb(deaths~log(BaseDam2014), data=hurricNamed[-c(13,84),])
df[,'hatnb'] <- funy(predict(hurr.nb, newdata=df, type='response'))
gph3 + latticeExtra::layer(data=df,
panel.lines(log(BaseDam2014), hatnb, lwd=2, lty=2,
alpha=0.5, col="gray30"))