দু'টি নমুনার গড়ের তুলনা কীভাবে করা যায় যার ডেটা এক্সফোনেনশিয়াল ডিস্ট্রিবিউশনগুলির সাথে ফিট করে


10

আমার কাছে ডেটার দুটি নমুনা, একটি বেসলাইন নমুনা এবং একটি চিকিত্সার নমুনা রয়েছে।

অনুমানটি হ'ল চিকিত্সা নমুনার বেসলাইন নমুনার চেয়ে উচ্চতর গড় রয়েছে।

উভয় নমুনা আকারে সূচকযুক্ত। যেহেতু ডেটা বরং বড়, তাই আমি পরীক্ষার সময় প্রতিটি নমুনার জন্য কেবলমাত্র গড় এবং উপাদানের সংখ্যা রাখি।

আমি কীভাবে এই অনুমানটি পরীক্ষা করতে পারি? আমি অনুমান করছি যে এটি অত্যন্ত সহজ, এবং আমি এফ-টেস্ট ব্যবহারের জন্য বেশ কয়েকটি উল্লেখ পেয়েছি, তবে আমি কীভাবে পরামিতিগুলির মানচিত্রের মানচিত্র তা নিশ্চিত নই।


2
আপনার কাছে ডেটা নেই কেন? নমুনাগুলি যদি সত্যিই বড় আকারের হয় তবে প্যারামিমেট্রিক পরীক্ষাগুলি দুর্দান্ত কাজ করা উচিত, তবে মনে হচ্ছে আপনি সংক্ষিপ্তসার পরিসংখ্যান থেকে একটি পরীক্ষা চালানোর চেষ্টা করছেন। এটা কি সঠিক?
মিমশট

একই রোগী থেকে বেসলাইন এবং চিকিত্সার মান সেট করা আছে বা দুটি গ্রুপ স্বাধীন?
মাইকেল এম

1
@ মিমশট, ডেটা প্রবাহিত হচ্ছে, তবে আপনি ঠিক বলেছেন যে আমি সারাংশের পরিসংখ্যান থেকে একটি পরীক্ষা চালানোর চেষ্টা করছি। এটি সাধারণ ডেটার জন্য একটি জেড পরীক্ষার সাথে বেশ ভাল কাজ করে
জোনাথন ডবি

1
এই পরিস্থিতিতে, একটি আনুমানিক জেড-পরীক্ষা সম্ভবত আপনি সবচেয়ে ভাল করতে পারেন। তবে, পরিসংখ্যানগত তাত্পর্য সম্পর্কে নয়, প্রকৃত চিকিত্সার প্রভাবটি কত বড় তা সম্পর্কে আমি আরও যত্নবান care মনে রাখবেন যে যথেষ্ট পরিমাণে নমুনা সহ, যে কোনও ক্ষুদ্র প্রকৃত প্রভাব একটি ছোট পি মানের দিকে পরিচালিত করবে।
মাইকেল এম

1
@ জঞ্জুরি - যদিও, যদি তার নমুনার আকারগুলি যথেষ্ট পরিমাণে বড় হয় তবে সিএলটি দ্বারা তারা সাধারণত বিতরণের খুব কাছাকাছি থাকবে। নাল হাইপোথিসিসের অধীনে, বৈচিত্রগুলি একই হবে (উপায় হিসাবে), সুতরাং, যথেষ্ট পরিমাণে নমুনার আকারের সাথে একটি টি-টেস্টটি সূক্ষ্মভাবে কাজ করা উচিত; এটি সমস্ত ডেটা দিয়ে আপনি যেমন করতে পারেন ততটা ভাল হবে না, তবে এখনও ঠিক থাকবে। , উদাহরণস্বরূপ, বেশ ভাল হবে। n1=n2=100
jboman

উত্তর:


14

সম্ভাব্য অনুপাত পরীক্ষার (এলআর পরীক্ষা) সাথে গড় প্যারামিটারগুলি অসম যে বিকল্পের বিরুদ্ধে আপনি গড় প্যারামিটারগুলির সমতা পরীক্ষা করতে পারেন। (তবে, যদি গড় প্যারামিটারগুলি পৃথক হয় এবং বিতরণটি তাত্পর্যপূর্ণ হয় তবে এটি কোনও স্থান শিফট নয়, স্কেল শিফট)

এক-লেজযুক্ত পরীক্ষার জন্য (তবে কেবল দুটি লেজযুক্ত ক্ষেত্রে তাত্পর্যপূর্ণভাবে), আমি বিশ্বাস করি যে এলআর পরীক্ষাটি নীচের সমতুল্য হয়ে আসে (এটি বাস্তবে এক-লেজযুক্ত এলআর পরীক্ষার মতোই যে কোনও একটিতে এলআর পরিসংখ্যানগুলি ওয়াইতে একঘেয়েমি ছিল তা দেখাতে হবে :x¯/y¯

আসুন আমরা parameterize বলে তার হিসাবে পিডিএফ প্রথম সূচকীয় ম পর্যবেক্ষণ এবং তার হিসাবে দ্বিতীয় নমুনা তম পর্যবেক্ষণ পিডিএফ (পর্যবেক্ষণ এবং পরামিতিগুলির জন্য সুস্পষ্ট ডোমেনের ওপরে)। (স্পষ্টরূপে বলতে গেলে, আমরা এখানে গড়-ফর্ম নয়, গড় আকারে কাজ করছি; এটি গণনার ফলাফলকে প্রভাবিত করবে না))1 / μ এক্স Exp ( - এক্স আমি / μ এক্স ) 1 / μ Y Exp ( - Y / μ Y )i1/μxexp(xi/μx)j1/μyexp(yj/μy)

যেহেতু এর বিতরণ গামা, একটি বিশেষ ক্ষেত্রে, তাই , যোগফল বিতরণ করা হয় ; একইভাবে এর যোগফলের জন্য , হ'ল । Γ ( , μ এক্স ) এক্স এস এক্স Γ ( এন এক্স , μ এক্স ) ওয়াই এস ওয়াই Γ ( এন ওয়াই , μ )XiΓ(1,μx)XSxΓ(nx,μx)YSyΓ(ny,μy)

গামা ডিস্ট্রিবিউশন এবং চি-স্কোয়ারড ডিস্ট্রিবিউশন মধ্যে সম্পর্ক কারণে এটা দেখা যাচ্ছে যে বিতরণ করা হয় । স্বাধীনতার তাদের ডিগ্রী দুটি চি-স্কোয়ার অনুপাত এফ অত: পর অনুপাত হল, ।χ 2 2 এন এক্স μ ওয়য়2/μxSxχ2nx2μyμxSx/nxSy/nyF2nx,2ny

তারপরে, অর্থের সমতার নাল অনুমানের অধীনে , এবং দুটি পক্ষের বিকল্পের অধীনে মানগুলি শূন্য থেকে প্রাপ্ত মানের চেয়ে ছোট বা বড় হতে পারে to বিতরণ, যাতে আপনার একটি দ্বি-পুচ্ছ পরীক্ষা প্রয়োজন।x¯/y¯F2nx,2ny


বীজগণিতের ক্ষেত্রে আমরা কিছু সাধারণ ভুল করি নি তা পরীক্ষা করার সিমুলেশন:

এখানে আমি আকার 30 1000 নমুনা কৃত্রিম এবং 20 একই গড় সঙ্গে একটি সূচকীয় বণ্টনের থেকে এবং উপরোক্ত অনুপাত অফ মানে পরিসংখ্যাত নির্ণিত।ওয়াইXY

নীচে ফলাফল বিতরণের একটি হিস্টোগ্রাম পাশাপাশি একটি নলটির নীচে আমরা গণনা করা বিতরণ দেখানো একটি বক্ররেখা রয়েছে :F

নালীর নীচে অনুপাতের পরিসংখ্যানের অনুকরণের উদাহরণ বিতরণ


উদাহরণস্বরূপ, দ্বি-পুচ্ছ পি-মানগুলির গণনার আলোচনার সাথে :

গণনা চিত্রিত করার জন্য, এখানে সূচকীয় বিতরণ থেকে দুটি ছোট নমুনা। এক্স-স্যাম্পলটিতে জনসংখ্যার সাথে গড় 10 জন পর্যবেক্ষণ রয়েছে, ওয়াই-নমুনাটির গড় 15 জনসংখ্যার থেকে 17 টি পর্যবেক্ষণ রয়েছে:

x: 12.173  3.148 33.873  0.160  3.054 11.579 13.491  7.048 48.836 
   16.478  3.323  3.520  7.113  5.358

y:  7.635  1.508 29.987 13.636  8.709 13.132 12.141  5.280 23.447 
   18.687 13.055 47.747  0.334  7.745 26.287 34.390  9.596

নমুনার অর্থ যথাক্রমে 12.082 এবং 16.077। অর্থের অনুপাত 0.7515

বাম দিকের অঞ্চলটি সোজা, যেহেতু এটি নীচের লেজে রয়েছে (আর-তে ক্যালক):

 > pf(r,28,34) 
 [1] 0.2210767

আমাদের অন্যান্য লেজের সম্ভাবনা দরকার। বিলিটি যদি বিপরীতে প্রতিসাম্যপূর্ণ হয় তবে এটি করা সহজবোধ্য হবে।

বৈকল্পিক এফ-টেস্টের অনুপাত সহ একটি সাধারণ কনভেনশন (যা একইভাবে দুটি লেজযুক্ত) কেবলমাত্র একটি-লেজযুক্ত পি-মান দ্বিগুণ করা হয় (কার্যকরভাবে এখানে যা চলছে তা ; এটি আর-তেও করা হয় বলে মনে হয়, উদাহরণস্বরূপ ); এই ক্ষেত্রে এটি 0.44 এর একটি পি-মান দেয়।

তবে, আপনি যদি প্রতিটি আনুষাঙ্গিকের মধ্যে এর ক্ষেত্র রেখে একটি আনুষ্ঠানিক প্রত্যাখ্যানের নিয়ম করে এটি করেন তবে আপনি এখানে বর্ণিত হিসাবে সমালোচনামূলক মান পেতে চাইবেন । পি-মানটি তখন বৃহত্তম যা প্রত্যাখ্যানের দিকে নিয়ে যায়, যা স্বাধীনতার ডিগ্রি পরিবর্তনের জন্য অন্য লেজের পিঠে একটি লেজযুক্ত পি-ভ্যালুতে উপরে একটি লেজযুক্ত পি-মান যুক্ত করার সমতুল্য। উপরের উদাহরণে 0.43 এর একটি পি-মান দেয়।αα/2α


আমি অনুমান করছি এটি কেবল আমার ঘন হয়ে আসছে তবে 0.7515 কোথা থেকে আসে?
জোনাথন ডবি

r = গড় (x) / গড় (y) = 0.7515 - অর্থাৎ, "এর অনুপাত"
Glen_b -রাইনস্টেট মনিকা

ঠিক আছে, দুর্দান্ত আমি 0.67 পেয়েছি, তবে এটি সম্ভবত কেবলমাত্র একটি ডাটা এন্ট্রি ত্রুটির কারণে is
জোনাথন ডবি

1
আমি জনসংখ্যার মাধ্যমের মধ্যে পার্থক্য তৈরি করেছি এবং ফলস্বরূপ নমুনাটির অর্থ আরও স্পষ্ট
Glen_b -Rininstate Monica

(+1) তবে এটি স্পর্শকাতর হলেও, আমি শেষ অনুচ্ছেদটি বুঝতে পারি না। এক-লেজযুক্ত পি-মানটিকে দ্বিগুণ করে কীভাবে প্রতিটি লেজের মধ্যে an এর ক্ষেত্রফলের সাথে বৃহত্তম খুঁজে পাওয়ার সমতুল্য নয় , যা প্রত্যাখাত হতে পারে? কেন আপনি স্বাধীনতার ডিগ্রি একেবারে বিনিময় করবেন? ααα2
Scortchi - পুনর্বহাল মনিকা

3

@ গ্লেন_ব এর উত্তরের সংযোজন হিসাবে, সম্ভাবনা অনুপাত হ'ল যা আপনি সাজতে পারেন যেখানে। এ একক ন্যূনতম রয়েছে , সুতরাং এফ-টেস্টটি হ'ল অভিন্ন বিতরণের নাল হাইপোথিসিসের একতরফা বিকল্পগুলির বিরুদ্ধে সম্ভাবনা অনুপাতের পরীক্ষা test nxলগ( এন এক্স)

nxlognxxi+nylognyyj(nx+ny)lognx+nyxi+yj
nxlog(nxny+1r)+nylog(nynx+r)+nxlognynx+ny+nylognxnx+ny
r=x¯y¯r=1

দ্বিমুখী বিকল্পের জন্য যথাযথ সম্ভাবনা-অনুপাত পরীক্ষাটি সম্পাদন করতে আপনি এখনও এফ-বিতরণ ব্যবহার করতে পারেন; আপনাকে কেবলমাত্র নমুনার অনুপাতের অন্য মানটি খুঁজে বের করতে হবে যার অর্থ হচ্ছে which যার জন্য সম্ভাবনা অনুপাত পর্যবেক্ষণের অনুপাতের সমান , এবং তারপরে । এই উদাহরণস্বরূপ , & , এর একটি সামগ্রিক P-মান দান , (বরং চি-বর্গক্ষেত্র পড়তা দ্বারা প্রাপ্ত যে পাসে দ্বিগুণ লগ সম্ভাবনা অনুপাতের বিতরণ, )।rELRrobsPr(R>rELR)rELR=1.3272Pr(R>rELR)=0.21420.43520.4315

এখানে চিত্র বর্ণনা লিখুন

তবে এক-লেজযুক্ত পি-মান দ্বিগুণ করা সম্ভবত দ্বি-পুচ্ছ পি-মান পাওয়ার সবচেয়ে সাধারণ উপায়: এটি নমুনার অনুপাতের মান সন্ধানের সমতুল্য অর্থ which যার জন্য লেজের সম্ভাবনা সমান , এবং তারপরে । এর মতো ব্যাখ্যা করা হয়েছে, লেজ সম্ভাবনার পরীক্ষার পরিসংখ্যানের চূড়ান্ততা সংজ্ঞায়িত করার ক্ষেত্রে এটি ঘোড়ার আগে কার্টটি রেখে দেওয়া হতে পারে, তবে এটি দুটি এক-লেজযুক্ত পরীক্ষার (প্রতিটি এলআরটি) একাধিক তুলনা সহ কার্যকর হওয়া হিসাবে ন্যায়সঙ্গত হতে পারে সংশোধন — এবং লোকেরা সাধারণত যে বা দাবী করতে আগ্রহী PR ( R > r E T P ) PR ( R < r o b s ) PR ( R > r E T P ) μ x > μ y μ x < μ y μ x > μ y μ x < μ YrETPPr(R>rETP)Pr(R<robs)Pr(R>rETP)μএক্স>μYμএক্স<μYμএক্স>μY বা । এটি খুব কম গোলমালও করে, এমনকি মোটামুটি ছোট নমুনা আকারের জন্যও, দ্বি-লেজযুক্ত এলআরটি যথাযথ হিসাবে অনেক একই উত্তর দেয়।μএক্স<μY

এখানে চিত্র বর্ণনা লিখুন

আর কোড অনুসরণ:

x <- c(12.173, 3.148, 33.873, 0.160, 3.054, 11.579, 13.491, 7.048, 48.836,
       16.478, 3.323, 3.520, 7.113, 5.358)

y <- c(7.635, 1.508, 29.987, 13.636, 8.709, 13.132, 12.141, 5.280, 23.447, 
       18.687, 13.055, 47.747, 0.334,7.745, 26.287, 34.390, 9.596)

# observed ratio of sample means
r.obs <- mean(x)/mean(y)

# sample sizes
n.x <- length(x)
n.y <- length(y)

# define log likelihood ratio function
calc.llr <- function(r,n.x,n.y){
  n.x * log(n.x/n.y + 1/r) + n.y*log(n.y/n.x + r) + n.x*log(n.y/(n.x+n.y)) + n.y*log(n.x/(n.x+n.y))
}

# observed log likelihood ratio
calc.llr(r.obs,n.x, n.y) -> llr.obs

# p-value in lower tail
pf(r.obs,2*n.x,2*n.y) -> p.lo

# find the other ratio of sample means giving an LLR equal to that observed
uniroot(function(x) calc.llr(x,n.x,n.y)-llr.obs, lower=1.2, upper=1.4, tol=1e-6)$root -> r.hi

#p.value in upper tail
p.hi <- 1-pf(r.hi,2*n.x,2*n.y)

# overall p.value
p.value <- p.lo + p.hi

#approximate p.value
1-pchisq(2*llr.obs, 1)
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.