অত্যন্ত স্কিউড ডেটাতে টি-পরীক্ষা


18

আমার কাছে চিকিত্সা ব্যয় সম্পর্কিত ডেটা কয়েক হাজার পর্যবেক্ষণ সহ একটি ডেটা সেট করা আছে। এই ডেটাটি ডান দিকে উচ্চ স্কিউড এবং প্রচুর শূন্য রয়েছে। দুই সেট লোকের জন্য এটি দেখতে এটির মতো দেখাচ্ছে (এই ক্ষেত্রে>>>>>

 Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
 0.0      0.0      0.0   4536.0    302.6 395300.0 
Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
 0.0      0.0      0.0   4964.0    423.8 721700.0 

আমি যদি এই ডেটাতে ওয়েলচের টি-টেস্ট করি তবে আমি ফলাফল ফিরে পাব:

Welch Two Sample t-test

data:  x and y
t = -0.4777, df = 3366.488, p-value = 0.6329
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -2185.896  1329.358
sample estimates:
mean of x mean of y 
 4536.186  4964.455 

আমি জানি যে এই ডেটাটি খুব খারাপভাবে অস্বাভাবিক হওয়া থেকে কোনও টি-টেস্ট ব্যবহার করা সঠিক নয়। যাইহোক, যদি আমি উপায়গুলির পার্থক্যের জন্য ক্রমুয়েশন পরীক্ষা ব্যবহার করি তবে আমি সমস্ত সময় প্রায় একই পি-মান পাই (এবং এটি আরও পুনরাবৃত্তির সাথে আরও ঘনিষ্ঠ হয়)।

আরে परमিট প্যাকেজ ব্যবহার করা হচ্ছে এবং সঠিক মন্টি কার্লো সহ परमটিএস

    Exact Permutation Test Estimated by Monte Carlo

data:  x and y
p-value = 0.6188
alternative hypothesis: true mean x - mean y is not equal to 0
sample estimates:
mean x - mean y 
      -428.2691 

p-value estimated from 500 Monte Carlo replications
99 percent confidence interval on p-value:
 0.5117552 0.7277040 

কেন পারমিটেশন টেস্টের পরিসংখ্যানগুলি টেস্টেস্টের মানটির কাছাকাছি চলে আসছে? আমি যদি ডেটা লগগুলি নিই তবে আমি 0.28 এর একটি টেস্টেস্ট পি-মান এবং ক্রমুশন পরীক্ষা থেকে একই পাই। আমি ভেবেছিলাম যে টি-পরীক্ষার মানগুলি এখানে যা পাচ্ছি তার চেয়ে বেশি আবর্জনা হবে। আমার মতো আরও অনেক ডেটা সেটের ক্ষেত্রে এটি সত্য এবং টি-টেস্টটি যখন এটি করা উচিত নয় তখন কেন কাজ করছে বলে মনে হচ্ছে তা ভাবছি।

এখানে আমার উদ্বেগটি হ'ল পৃথক ব্যয়গুলি আইডি নয় এমন অনেকগুলি উপ-গ্রুপ রয়েছে যারা খুব বেশি ব্যয় বন্টন করে থাকে (মহিলা বনাম পুরুষ, দীর্ঘস্থায়ী পরিস্থিতি ইত্যাদি) যা কেন্দ্রীয় সীমাবদ্ধতা উপপাদনের জন্য আইডির প্রয়োজনীয়তাটি বিলোপ করে বলে মনে হয়, বা আমার চিন্তা করা উচিত নয় যে সম্পর্কে?


এটি কীভাবে হয় যে আপনার ডেটার সর্বনিম্ন মান এবং মিডিয়ান উভয়ই শূন্য?
অ্যালেকোস পাপাদোপল্লোস

অর্ধেকেরও বেশি মান শূন্য, ইঙ্গিত দেয় যে অর্ধেক লোকের সেই বছর কোনও চিকিত্সা সেবা ছিল না।
ক্রিস

এবং কেন আপনি মনে করেন যে অনুমতিপত্র পরীক্ষা আলাদা হওয়া উচিত? (উভয় গ্রুপের যদি একইভাবে অ-সাধারণ বিতরণ থাকে)
ফেয়ারমিলস

মনে রাখবেন যে আইডি দুটি পৃথক অনুমান। প্রথমটি 'স্বতন্ত্র'। দ্বিতীয়টি 'অভিন্নভাবে বিতরণ'। আপনি মনে করছেন যে পর্যবেক্ষণগুলি 'অভিন্নভাবে বিতরণ করা হয়নি'। এটি এখনও পর্যন্ত সরবরাহ করা উত্তরগুলিকে প্রভাবিত করবে না, কারণ আমরা এখনও ধরে নিতে পারি যে সমস্ত পর্যবেক্ষণগুলি বিতরণের একটি বড় মিশ্রণ থেকে। তবে আপনি যদি মনে করেন যে পর্যবেক্ষণগুলি স্বতন্ত্র নয়, তবে এটি অনেক আলাদা এবং সম্ভাব্য আরও জটিল সমস্যা।
zkurtz

উত্তর:


29

টি-টেস্ট বা পারমিটেশন টেস্ট উভয়েরই এ জাতীয় দুটি ব্যতিক্রমী স্কিউ বিতরণের মধ্যে পার্থক্য সনাক্ত করার মতো ক্ষমতা নেই। এইভাবে তারা উভয়ই অ্যানোডিন পি-ভ্যালু দেয় যা কোনও তাত্পর্যপূর্ণ নয়। বিষয়টি এমন নয় যে তারা একমত বলে মনে হচ্ছে; এগুলি যেহেতু কোনও পার্থক্য সনাক্ত করার জন্য তাদের যথেষ্ট সময় থাকার কারণে তারা কেবল একমত হতে পারে না!


কিছু স্বজ্ঞাততার জন্য, বিবেচনা করুন যদি কোনও ডাটাবেসে একটি মানের পরিবর্তন ঘটে তবে কী হবে । ধরুন, উদাহরণস্বরূপ, সর্বাধিক 721,700 দ্বিতীয় ডেটা সেটে ঘটেছিল না। গড়টি প্রায় 721700/3000 হ্রাস পেয়েছে যা প্রায় 240। এটি প্রস্তাব দেয় (যদিও এটি প্রমাণিত হয় না) যে কোনও উপায়ের তুলনা পার্থক্যটিকে তাত্পর্যপূর্ণ মনে করবে না।

টি-টেস্ট প্রযোজ্য নয় তা আমরা যাচাই করতে পারি। আসুন এগুলির মতো একই পরিসংখ্যানগত বৈশিষ্ট্য সহ কিছু ডেটাসেট তৈরি করা যাক। এটি করার জন্য আমি মিশ্রণগুলি তৈরি করেছি

  • 5/8 ডেটা যে কোনও ক্ষেত্রে জিরো।
  • বাকী ডেটাতে লগন্যাল বিতরণ রয়েছে।
  • সেই বিতরণের প্যারামিটারগুলি পর্যবেক্ষণকৃত উপায়গুলি এবং তৃতীয় কোয়ার্টাইলগুলি পুনরুত্পাদন করার ব্যবস্থা করা হয়।

এই সিমুলেশনে দেখা গেছে যে সর্বোচ্চ মানগুলিও রিপোর্ট করা ম্যাক্সিমার থেকে খুব বেশি দূরে নয়।

আসুন প্রথম ডেটাसेटটি 10,000 বার প্রতিলিপি করা এবং এর গড় ট্র্যাক করা। (আমরা যখন দ্বিতীয় ডেটাসেটের জন্য এটি করি তখন ফলাফলগুলি প্রায় একই রকম হয়)) এর অর্থের হিস্টোগামটি গড়ের নমুনা বন্টনকে অনুমান করে। টি-টেস্ট কার্যকর হয় যখন এই বিতরণটি প্রায় সাধারণ হয়; এটি স্বাভাবিকতা থেকে যে পরিমাণে বিচ্যুত হয় তা নির্দেশ করে যে কী পরিমাণে ছাত্র t বিতরণ ভুল হবে। সুতরাং, রেফারেন্সের জন্য, আমি সাধারণ বন্টনের পিডিএফও এই ফলাফলগুলিতে ফিট করে।

হিস্টোগ্রাম ঘ

আমরা খুব বেশি বিশদ দেখতে পাচ্ছি না কারণ কিছু বড় বড় আউটলিয়ার রয়েছে। (এটি আমি যেভাবে উল্লেখ করেছি তার এই সংবেদনশীলতার প্রকাশ)) এর মধ্যে 123 টি রয়েছে - 1.23% - 10,000 এর উপরে। আসুন বাকীটির দিকে মনোনিবেশ করুন যাতে আমরা বিশদটি দেখতে পারি এবং কারণ এই আউটলিয়ারগুলি বিতরণের ধরে নেওয়া লগনরমালটি হতে পারে, যা মূল ডেটাসেটের ক্ষেত্রে অগত্যা নয়।

হিস্টোগ্রাম 2

এটি এখনও দৃ strongly়ভাবে স্কিউড এবং সাধারণ আনুমানিকতা থেকে দৃশ্যমানভাবে বিচ্যুত হয়, প্রশ্নটিতে বর্ণিত ঘটনার যথেষ্ট ব্যাখ্যা সরবরাহ করে। এটি আমাদের বোঝারও দেয় যে কোনও পরীক্ষার মাধ্যমে কী পরিমাণে বড় পার্থক্য সনাক্ত করা যায়: তাৎপর্যপূর্ণ দেখাতে প্রায় 3000 বা তার বেশি হতে হবে। বিপরীতে, 428 এর প্রকৃত পার্থক্য সনাক্ত করা যেতে পারে তবে আপনি যদি প্রায় গুণ বেশি ডেটা (প্রতিটি গ্রুপে) পেয়ে থাকেন। (3000/428)2=50 50 গুণ বেশি ডেটা দেওয়া, আমি অনুমান করি যে 5% এর তাত্পর্যপূর্ণ স্তরে এই পার্থক্যটি সনাক্ত করার শক্তিটি 0.4 এর কাছাকাছি হবে (যা ভাল নয় তবে কমপক্ষে আপনার একটি সুযোগ থাকবে)।


Rএই কোডগুলি এখানে এই পরিসংখ্যান তৈরি করেছে।

#
# Generate positive random values with a median of 0, given Q3,
# and given mean. Make a proportion 1-e of them true zeros.
#
rskew <- function(n, x.mean, x.q3, e=3/8) {
  beta <- qnorm(1 - (1/4)/e)
  gamma <- 2*(log(x.q3) - log(x.mean/e))
  sigma <- sqrt(beta^2 - gamma) + beta
  mu <- log(x.mean/e) - sigma^2/2
  m <- floor(n * e)
  c(exp(rnorm(m, mu, sigma)), rep(0, n-m))
}
#
# See how closely the summary statistics are reproduced.
# (The quartiles will be close; the maxima not too far off;
# the means may differ a lot, though.)
#
set.seed(23)
x <- rskew(3300, 4536, 302.6)
y <- rskew(3400, 4964, 423.8)
summary(x)
summary(y)
#
# Estimate the sampling distribution of the mean.
#
set.seed(17)
sim.x <- replicate(10^4, mean(rskew(3367, 4536, 302.6)))
hist(sim.x, freq=FALSE, ylim=c(0, dnorm(0, sd=sd(sim.x))))
curve(dnorm(x, mean(sim.x), sd(sim.x)), add=TRUE, col="Red")
hist(sim.x[sim.x < 10000], xlab="x", freq=FALSE)
curve(dnorm(x, mean(sim.x), sd(sim.x)), add=TRUE, col="Red")
#
# Can a t-test detect a difference with more data?
#
set.seed(23)
n.factor <- 50
z <- replicate(10^3, {
  x <- rskew(3300*n.factor, 4536, 302.6)
  y <- rskew(3400*n.factor, 4964, 423.8)
  t.test(x,y)$p.value
})
hist(z)
mean(z < .05) # The estimated power at a 5% significance level

1
একটি অত্যন্ত স্কিউ ডেটা সেটটি যেখানে t-test এর তবুও একজন উদাহরণস্বরূপ হয় (বৃহৎ পরিমাণ তথ্য কারণে) প্রযোজ্য, দয়া করে দেখুন stats.stackexchange.com/questions/110418/... । এই দুটি ক্ষেত্রে একসাথে দেখানো হয়েছে যে প্রশ্নের কোনও কাট-শুকনো উত্তর নেই: টি-পরীক্ষাটি অর্থবহ এবং নির্ভুল হবে কিনা তা সিদ্ধান্ত নেওয়ার সময় আপনাকে ডেটা বিতরণ এবং উপাত্তের পরিমাণ উভয়ই বিবেচনা করতে হবে।
whuber

3
আমি এই প্রশ্নটিকে আবার খুঁজে পেতে সক্ষম হওয়ার আশায় অনুকূল হয়েছি যখন এমন লোকদের সাথে মুখোমুখি হয়েছিল যারা মনে করে যে এন = 30 বা এন = 300 কেবলমাত্র এগিয়ে যাওয়ার পক্ষে এবং নমুনা মাধ্যমগুলি সাধারণত বিতরণ করা (এবং আরও এগিয়ে) ধরে নেওয়া যথেষ্ট। আমার ভাল সিমুলেটেড উদাহরণ রয়েছে তবে এটি সত্যিকারের ডেটা সহ একটি সমস্যা এটি দেখানো ভাল।
গ্লেন_বি -রিনস্টেট মনিকা

1
+1, তবে আমি ভাবছি যে এর মতো পরিস্থিতিতে আপনার ব্যবহারিক পরামর্শটি কী হবে। কেউ কি গড় (সম্ভবত কিছু উচ্চ কোয়ান্টাইল) এর পরিবর্তে অন্য কোনও পরিসংখ্যানের ভিত্তিতে ক্রিয়েটেশন পরীক্ষা ব্যবহার করার চেষ্টা করবে? এর মানে কি স্ট্যান্ডার্ড পরীক্ষা চালানোর আগে কিছু পরিবর্তন করার চেষ্টা করা উচিত? অথবা দুটি নমুনার মধ্যে একটি উল্লেখযোগ্য পার্থক্য সনাক্ত করার পরিবর্তে কোনও আশা ছেড়ে দেওয়া উচিত?
অ্যামিবা বলেছেন মোনিকা

@ অ্যামিবা যদি উদ্বেগের মাধ্যমগুলির মধ্যে পার্থক্যগুলি পরীক্ষা করে দেখানো হয় তবে ফলশ্রুতি পরীক্ষাটি কোনও লাভ হবে না: আপনি এখানে উল্লেখযোগ্য পার্থক্য খুঁজে বের করতে যাচ্ছেন না। আপনি যদি অন্য কোনও পরিসংখ্যান পরীক্ষা করেন, তবে আপনি গড়টি পরীক্ষা করছেন না (যা ব্যয় উপাত্তের জন্য বিশেষভাবে প্রাসঙ্গিক!), সুতরাং এটির প্রস্তাব দেওয়া যেতে পারে কিনা তা লক্ষ্যগুলির উপর নির্ভর করে।
হোবার

4

যখন এন বড় হয় (300 এর মতো, এমনকি 3000 এর চেয়েও কম), টি-টেস্টটি মূলত জেড-টেস্টের সমান। এটি হ'ল টি-টেস্ট কেন্দ্রীয় সীমাবদ্ধ উপপাদকের প্রয়োগ ছাড়া আর কিছুই হয়ে ওঠে না, যা বলে যে আপনার দুই গ্রুপের প্রত্যেকের জন্য এমইএন প্রায় যথাযথভাবে বিতরণ করা হয়েছে (এমনকি যদি দুটি উপায়ের অন্তর্গত পর্যবেক্ষণগুলি সাধারণত খুব দূরে থাকে তবে বিতরণ করা!)। এটিও আপনার সাধারণ টি-টেবিলটি 1000 এর চেয়ে বেশি এন এর মানগুলি দেখানোর জন্য বিরক্ত করে না (উদাহরণস্বরূপ, এই টি-টেবিল) । সুতরাং, আপনি এত ভাল আচরণের ফলাফল পেয়ে যাচ্ছেন তা দেখে আমি অবাক হই না।

সম্পাদনা: আমার মনে হয় সঙ্কুচিত হওয়ার চূড়ান্ততা এবং এর গুরুত্বকে আমি অবমূল্যায়ন করেছি। যদিও আমার উপরের বক্তব্যটি কম চরম পরিস্থিতিতে যোগ্যতা রয়েছে, তথাপি প্রশ্নটির উত্তর দেওয়া সামগ্রিকভাবে অনেক ভাল।


2
যখন সঙ্কোচনের বিষয়টি চরম হয় - উদ্ধৃত পরিসংখ্যান হিসাবে প্রমাণিত - আমাদের কোনও আশ্বাস নেই যে 300 বা এমনকি 3000 নমুনার গড়ের নমুনা বিতরণ স্বাভাবিকের কাছাকাছি কোথাও থাকবে। সে কারণেই ওপি অবাক। আপনি এর বিপরীতে এই বলে যে আপনি অবাক হন না, তবে এটি অন্য ব্যক্তির তুলনায় একজনের অন্তর্নিহিতায় নেমে আসে বলে মনে হয়। টি-টেস্টটি ভালভাবে কাজ করার জন্য 300 (বা 3000) একটি যথেষ্ট পরিমাণে যথেষ্ট নমুনা প্রমাণ করে আপনি এই ডেটাগুলির জন্য কোন উদ্দেশ্য যুক্তি সরবরাহ করতে পারেন ?
হোবার

দুর্দান্ত পয়েন্ট। আমি স্বীকার করি, যদি ডেটা পর্যাপ্ত পরিমাণে স্কিউ হয় তবে আমার যুক্তি ব্যর্থ হয়। সুতরাং আমার কাছে প্রশ্নটি হ'ল ডেটাটি কীভাবে স্কিউড হয় এবং প্রয়োজনীয় নমুনা আকারের সাথে স্কিউনেস সম্পর্কিত কোনও আনুষ্ঠানিক ফলাফল রয়েছে।
zkurtz

1
আমি এই প্রশ্নের উত্তর পোস্ট করেছি। আমরা জানি (কমপক্ষে আনুমানিক) প্রশ্নের স্ক্রিনের পরিসংখ্যানের উপর ভিত্তি করে ডেটা কীভাবে স্কিউড হয়। এই স্কিউ এতটাই শক্তিশালী যে 300 বা 3000 নয়, এমনকি প্রতি গ্রুপে 30,000 পর্যবেক্ষণও এই নমুনাটির নমুনা বিতরণকে "প্রায় একেবারে স্বাভাবিক" করে তুলবে। এই দাবিটি প্রশংসনীয় হওয়ার আগে আপনার সম্ভবত প্রায় 300,000 বা তার বেশি প্রয়োজন। সুতরাং দুটি পরীক্ষায় কেন একমত হওয়ার জন্য আমাদের অবশ্যই আলাদা ব্যাখ্যা চাইতে হবে। খনি যে তন্ন তন্ন হয় "ভালভাবে ব্যবহার করেছেন" বদলে উভয় ভালভাবে ভদ্র হয়।
হোবার

0

আমি জানি এই উত্তরটি বেশ দেরিতে। তবে আমি স্বাস্থ্যসেবা গবেষণায় পিএইচডি পাচ্ছি, তাই আমি ব্যয় সম্পর্কিত তথ্য সহ স্বাস্থ্যসেবা ডেটা নিয়ে অনেক কাজ করি।

ওপি-র কী তথ্য ছিল তা আমি জানি না। যদি এটি ক্রস-বিভাগীয় ডেটা হয়, তবে সম্ভবত এটি আইডিআইডি সমর্থনযোগ্য ছিল। স্বাধীনতার অর্থ প্রতিটি ইউনিট, তাই প্রতিটি ব্যক্তি স্বাধীন। এটি খুব সম্ভবত ন্যায়সঙ্গত। অভিন্নভাবে বিতরণ হিসাবে, ডেটা মডেল করা যেতে পারে সমস্ত হিসাবে আসা থেকে, বলতে, লগ লিঙ্ক সহ একটি সাধারণ রৈখিক মডেল একটি গামা বিতরণ। মানুষ সাধারণত অনুশীলনে এটি করে। অথবা আপনি অভিনবতা পেতে চাইলে, সম্ভবত বাধা মডেলগুলি রয়েছে (একনোমেট্রিক্সে জনপ্রিয়) যা অতিরিক্ত 0 এর সাথে কাজ করে। যা, যাইহোক, স্বাস্থ্যসেবা ব্যয় করা খুব সাধারণ। ওপি প্রযুক্তিগতভাবে সঠিক যে ডেটা অগত্যা অভিন্নভাবে বিতরণ করা হয় না, উদাহরণস্বরূপ গড় এবং বৈচিত্রটি বয়সের সাথে বদলে যাবে, তবে এটি একাধিক রিগ্রেশন মডেলগুলির একটি কার্যক্ষম ধারণা।

যদি প্রতিটি ব্যক্তি এক বছরের বেশি সময় ধরে ডেটাসেটে থাকে তবে ডেটা আইআইডি হবে না। এর জন্য আরও জটিল মডেল উপলব্ধ। এগুলির মধ্যে একটি অপেক্ষাকৃত সাধারণ সম্ভবত সমীকরণ, গামা বিতরণ এবং লগ লিঙ্কটি আবার সাধারণভাবে নির্ধারণ করা হবে, একটি বিনিময়যোগ্য কাজের পারস্পরিক সম্পর্ক ধরে। অথবা, যদি এই ডেটাগুলি সর্বজনীনভাবে উপলব্ধ জরিপের তথ্য থেকে হয় তবে নমুনা নেওয়ার সমান সম্ভাবনা নেই - এই সমীক্ষার অনেকগুলি প্রতিটি পরিবারের একাধিক ব্যক্তির সাক্ষাত্কার নেয় এবং তারা জনসংখ্যার উপস্থাপনা করে এবং কয়েকটি গোষ্ঠীর (যেমন জাতিগত সংখ্যালঘুদের) নমুনা দেয়। ব্যবহারকারীকে তার জন্য সংশোধন করতে হবে।

আমি টি-টেস্ট ব্যবহার করি না, বিশেষত পর্যবেক্ষণের ডেটার জন্য নয়। অনেক গুলো কনফাউন্ডার রয়েছে, সুতরাং আপনি তাদের (সাধারণীকরণ) লিনিয়ার মডেলটিতে সামঞ্জস্য করতে চান। সুতরাং, আমি টি-টেস্ট সম্পর্কিত বিশেষত প্রশ্নগুলিতে মন্তব্য করতে পারি না।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.