আপনি দয়া করে কন্টিজেন্সি টেবিলের পরিবর্তে সমীকরণের সাথে সিম্পসনের প্যারাডক্সটি ব্যাখ্যা করতে পারেন?


14

সিম্পসনের প্যারাডক্স সম্পর্কে আমার সম্ভবত পরিষ্কার ধারণা নেই । অনানুষ্ঠানিকভাবে আমি জানি যে প্রতিক্রিয়া ওয়াই 1, ফ্যাক্টর এ এর ​​সমস্ত সম্ভাব্য স্তরের উপরে গোষ্ঠীযুক্ত, এ এর ​​সমস্ত স্তরের প্রতিক্রিয়া ওয়াই 2 এর গড়ের চেয়ে বেশি হতে পারে, এমনকি এ এর ​​প্রতিটি স্তরের (প্রতিটি গ্রুপ) জন্য যদি ওয়াই 1 এর গড় হয় তবে Y2 এর তুলনামূলক গড়ের তুলনায় সর্বদা কম। আমি উদাহরণগুলি পড়েছি, তবে প্রতিবার আমি যখনই দেখি তখনও আমি অবাক হয়ে যাই, কারণ নির্দিষ্ট উদাহরণগুলি দিয়ে আমি ভালভাবে শিখি না: সেগুলি সাধারণীকরণ করতে আমার সমস্যা হয়। আমি সূত্রে একটি ব্যাখ্যা ভাল শিখি, এবং বরং দেখতে চাই। আপনি কি দয়া করে টেবিলগুলি গণনা না করে সমীকরণের উপর নির্ভর প্যারাডক্সটি ব্যাখ্যা করতে পারেন?

এছাড়াও, আমি মনে করি আমার আশ্চর্য হওয়ার কারণটি হ'ল আমি অজ্ঞানভাবে প্যারাডক্সের সাথে জড়িত গড়গুলি সম্পর্কে কিছু ধারণা তৈরি করতে পারতাম, যা সাধারণভাবে সত্য হতে পারে না। আমি প্রতিটি গ্রুপের নমুনার সংখ্যা দ্বারা ওজন করতে ভুলে যেতে পারি? তবে, আমি এমন একটি সমীকরণ দেখতে চাই যা আমাকে দেখায় যে আমি প্রতিটি গ্রুপের নমুনার সংখ্যার ভিত্তিতে প্রতিটি গ্রুপের গড়কে ওজন দিলে মোট গড়ের গড় অনুমান আরও নির্ভুল, কারণ (যদি এটি সত্য হয়) তবে এটি সুস্পষ্ট নয় আমার কাছে সাধারণভাবে নির্লজ্জভাবে আমি ভাবতে পারি যে আমার কাছে ওজন নির্বিশেষে আরও বেশি নমুনা থাকলে অনুমানের E[Y1]নিম্নমানের ত্রুটি থাকে।


1
সিমুলেশন সহ আমার এখানে একটি সম্পর্কিত পোস্ট রয়েছে ।
সিম্পসনের

এখানে চাহিদা মতো সিম্পসনের প্যারাডক্স উত্পাদনকারী একটি মেশিন রয়েছে!
কেজেটিল বি হালওয়ারসেন

উত্তর:


11

গণনা সম্পর্কিত তথ্যের জন্য বীজগণিতভাবে সিম্পসনের প্যারাডক্সটি বোঝার জন্য এখানে একটি সাধারণ পদ্ধতি approach

মনে করুন যে কোনও এক্সপোজারের জন্য আমাদের বেঁচে থাকার ডেটা রয়েছে এবং আমরা একটি 2x2 কন্টিজেন্সি টেবিল তৈরি করি। জিনিসগুলি সহজ রাখতে প্রতিটি কক্ষে আমাদের একই গণনা থাকবে। আমরা এটিকে শিথিল করতে পারি, তবে এটি বীজগণিতকে যথেষ্ট অগোছালো করে তুলবে।

DiedSurvivedDeath RateExposedXX0.5UnexposedXX0.5

এক্ষেত্রে প্রকাশিত এবং অপ্রকাশিত উভয় গোষ্ঠীতেই মৃত্যুর হার সমান।

এখন, যদি আমরা ডেটা বিভক্ত করি, মহিলাদের জন্য একটি গ্রুপে এবং পুরুষদের জন্য অন্য একটি গ্রুপে বলুন, আমরা নিম্নোক্ত গণনা সহ 2 টি টেবিল পেয়েছি:

পুরুষ:

DiedSurvivedDeath RateExposedXaXbaa+bUnexposedXcXdcc+d

এবং মহিলাদের জন্য:

DiedSurvivedDeath RateExposedX(a1)X(b1)a1a+b2UnexposedX(c1)X(d1)c1c+d2

যেখানে হ'লa,b,c,d[0,1] পুরুষের সমষ্টিগত ডাটা টেবিলের প্রতিটি কক্ষের অনুপাত।

সিম্পসনের প্যারাডক্স তখন ঘটবে যখন অনাবৃত পুরুষের মৃত্যুর হারের তুলনায় অনাবৃত পুরুষদের মৃত্যুর হার বেশি এবং এক্সপোজড মহিলাদের জন্য মৃত্যুর হার অপ্রকাশিত মহিলাদের জন্য মৃত্যুর হারের চেয়ে বেশি। বিকল্পভাবে, এটি তখনও ঘটতে পারে যখন অনাবৃত পুরুষের মৃত্যুর হারের তুলনায় অনাবৃত পুরুষের মৃত্যুর হার কম থাকে এবং অনাবৃত মহিলাদের জন্য মৃত্যুর হার কম থাকে exposed ওটা যখন

(aa+b<cc+d) and (a1a+b2<c1c+d2)

Or 

(aa+b>cc+d) and (a1a+b2>c1c+d2)

কংক্রিটের উদাহরণ হিসাবে, X=100 এবং a=0.5,b=0.8,c=0.9 । তারপরে আমাদের যখন সিম্পসনের প্যারাডক্স হবে:

(0.50.8+0.9<0.90.9+d) and (0.510.5+0.82<0.910.9+d2)

(9<d<1.44) and (0.96<d<1.1)

যা থেকে আমরা উপসংহারে পৌঁছেছি যে ডি অবশ্যই থাকা উচিত (0.96,1]

অসমতার দ্বিতীয় সেটটি দেয়:

(0.50.8+0.9>0.90.9+d) and (0.510.5+0.82>0.910.9+d2)

(d<0.9 or d>1.44) and (0.96<d or d>1.44)

যার d for [ 0 , 1 ] এর কোনও সমাধান নেইd[0,1]

a,b,cd0.99

0.5/(0.5+0.8)=38% in the exposed group
0.9/(0.9+0.99)=48% in the unexposed group

and for Females:

(0.51)/(0.5+0.82)=71% in the exposed group
(0.91)/(0.9+0.992)=91% in the unexposed group

So, males have a higher death rate in the unexposed group than in the exposed group, and females also have a higher death rate in the unexposed group than the exposed group, yet the death rates in the aggregated data are the same for exposed and unexposed.


16

Suppose we have data on 2 variables, x and y, for 2 groups, A and B.

Data in group A are such that the fitted regression line is

y=11x

with mean values of 2 and 9 for x and y respectively.

Data in group B are such that the fitted regression line is

y=25x

with mean values of 11 and 14 for x and y respectively.

So the regression coefficient for x is 1 in both groups.

Further, let there be equal numbers of observations in each group, with both and y distributed symmetrically. We now wish to compute the overall regression line. To keep matters simple we will assume that the overall regression line passes through the means of each group, that is (2,9) for group A and (11,14) for group B. Then it is easy to see that the overall regression line slope must be (149)/(112)=0.55 which is the overall regression coefficient for x. Thus we see Simpson’s paradox in action – we have a negative association of x with y in each group individually, but a positive association overall when the data are aggregated. We can demonstrate this easily in R as follows:

rm(list=ls())
Xa <- c(1,2,3)
Ya <- c(10,9,8)
m0 <- lm(Ya~Xa)
plot(Xa,Ya, xlim=c(0,20), ylim=c(5,20), col="red")
abline(m0, col="red")

Xb <- c(10,11,12)
Yb <- c(15,14,13)
m1 <- lm(Yb~Xb)
points(Xb,Yb, col="blue")
abline(m1, col="blue")

X <- c(Xa,Xb)
Y <- c(Ya,Yb)
m2 <- lm(Y~X)
abline(m2, col="black")

enter image description here

The red points and regression line are group A, the blue points and regression line are group B and the black line is the overall regression line.


Hi, thanks for the answer, but this is yet another specific example of the Simpson's paradox. I specifically asked for something in the form of a theorem or a set of equations, a more abstract and general approach. Anyway, since there are no other answers, I'll study your example and if I feel that it helps me to generalize the concept, I'll accept the answer.
DeltaIV

3
@DeltaIV I have written a new answer using purely algebraic arguments.
Robert Long
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.