অনুপাতের তুলনা করতে চি স্কোয়ার ব্যবহার করা যেতে পারে?


13

আমি পড়েছি যে চি স্কোয়ার পরীক্ষাটি প্রত্যাশিত মানগুলির সেট থেকে কোনও নমুনা উল্লেখযোগ্যভাবে পৃথক কিনা তা দেখতে দরকারী।

উদাহরণস্বরূপ, এখানে মানুষের পছন্দের রঙগুলি সম্পর্কিত একটি সমীক্ষার ফলাফলের একটি সারণী (এন = 15 + 13 + 10 + 17 = 55 জন উত্তরদাতা):

red,blue,green,yellow

15,13,10,17

একটি চি স্কোয়ার পরীক্ষা আমাকে বলতে পারে যে এই নমুনাটি প্রতিটি রঙ পছন্দ করে এমন লোকের সমান সম্ভাবনার নাল অনুমানের থেকে উল্লেখযোগ্যভাবে পৃথক কিনা।

প্রশ্ন: একটি নির্দিষ্ট রঙ পছন্দ করে এমন মোট উত্তরদাতাদের অনুপাতের ভিত্তিতে পরীক্ষা চালানো যেতে পারে? নীচের মত:

red,blue,green,yellow

0.273,0.236,0.182,0.309

যেখানে অবশ্যই, 0.273 + 0.236 + 0.182 + 0.309 = 1।

যদি চি স্কোয়ার পরীক্ষাটি এই ক্ষেত্রে উপযুক্ত না হয় তবে কী পরীক্ষা হবে? ধন্যবাদ!

সম্পাদনা: আমি নীচে @ রোমান লুইট্রিকের উত্তরটি চেষ্টা করেছি, এবং নীচের ফলাফলটি পেয়েছি, কেন আমি পি-মান পাচ্ছি না এবং আর কেন "চি-স্কোয়ারড আনুমানিকতা ভুল হতে পারে"?

> chisq.test(c(0,0,0,8,6,2,0,0),p = c(0.406197174,0.088746395,0.025193306,0.42041479,0.03192905,0.018328576,0.009190708,0))

    Chi-squared test for given probabilities

data:  c(0, 0, 0, 8, 6, 2, 0, 0) 
X-squared = NaN, df = 7, p-value = NA

Warning message:
In chisq.test(c(0, 0, 0, 8, 6, 2, 0, 0), p = c(0.406197174, 0.088746395,  :
  Chi-squared approximation may be incorrect

1
দ্বিতীয় ক্ষেত্রে, আপনি কি ধরে নিচ্ছেন যে আপনি মোট নমুনার আকার জানেন? অথবা না?
কার্ডিনাল

@ কার্ডিনাল: হ্যাঁ আমি মোট নমুনার আকার জানি।
এইচপি

3
তারপরে কেবলমাত্র নমুনার আকার দ্বারা অনুপাতগুলি গুণান একটি টেবিলের মধ্যে রূপান্তর করতে, এবং চি-বর্গ প্রয়োগ করুন। আপনার প্রথম উদাহরণের সাথে সম্পর্কিত পদ্ধতি।
হারুন

আমি সন্দেহ করি আপনি "ফিটের উপকার" পরীক্ষা (চি স্কোয়ার ব্যবহার করে) সম্পর্কে জিজ্ঞাসা করছেন। যার ব্যবহারকে বোকা বোঝানো হয়েছিল। চিয়ার্স, তাল
তাল গালিলি

উত্তর:


7

আমি ভুল হলে আমাকে সংশোধন করুন, তবে আমি মনে করি এটি এই আদেশটি ব্যবহার করে আর এর মাধ্যমে করা যেতে পারে

> chisq.test(c(15,13,10,17))

    Chi-squared test for given probabilities

data:  c(15, 13, 10, 17) 
X-squared = 1.9455, df = 3, p-value = 0.5838

এটি প্রতিটি 1/4 অনুপাত অনুমান করে। আপনি যুক্তির মাধ্যমে প্রত্যাশিত মানগুলিকে সংশোধন করতে পারেন p। উদাহরণস্বরূপ, আপনি ভাবেন যে লোকেরা (যে কারণেই হোক না কেন) অন্য বর্ণের তুলনায় এক রঙ পছন্দ করতে পারে।

> chisq.test(c(15,13,10,17), p = c(0.5, 0.3, 0.1, 0.1))

    Chi-squared test for given probabilities

data:  c(15, 13, 10, 17) 
X-squared = 34.1515, df = 3, p-value = 1.841e-07

2
আমার সন্দেহ হয় আপনি কিছু কম সেল গুনের কারণে এটি দেখেছেন (কিছু বই আমি পড়েছি সেগুলি প্রতি কমপক্ষে 5 মিনিটের প্রস্তাব দেয়)। বিষয় সম্পর্কে আরও জ্ঞানী কেউ চিপ ইন করতে পারেন?
রোমান Luštrik

1
এছাড়াও লক্ষ করুন যে আপনি যদি আপনার সম্ভাবনার শেষটিকে শূন্যের চেয়ে বেশি করেন তবে আপনি এপি মান পেতে পারেন (তবে সতর্কতাটি এখনও রয়ে গেছে)।
রোমান Luštrik

1
অ্যাট অ্যান্ড লংগেকার (পরিসংখ্যানগত পদ্ধতি এবং ডেটা বিশ্লেষণের একটি ভূমিকা, 5 তম সংস্করণ) পৃষ্ঠা 504 এ লিখেছেন যে প্রতিটি ঘরে কমপক্ষে পাঁচটি হওয়া উচিত, স্বাচ্ছন্দ্যে আনুমানিকভাবে ব্যবহার করতে।
রোমান Luštrik

1
@ স্পেনুয়ান: আপনার উল্লেখ করা উচিত ছিল যে আপনার বেশ কয়েকটি শূন্য সংখ্যা রয়েছে। রোমান ঠিক বলেছেন, এই ক্ষেত্রে চি-স্কোয়ার ব্যবহার করা কেবল তার কারণগুলির জন্য কার্যকর নয়।
জোরিস মাইস

1
@ স্পেনুয়ান: আমি আপনাকে কিছু বিকল্প দিয়ে একটি উত্তর যুক্ত করেছি।
জোরিস মাইস

6

আপনি যে অতিরিক্ত তথ্য দিয়েছিলেন তা ব্যবহার করে (মানটি বেশ কয়েকটি 0 হ'ল) ​​আপনার সমাধানটি কেন কিছু দেয় না তা খুব স্পষ্ট। একটির জন্য, আপনার 0 টি সম্ভাবনা রয়েছে তাই:

  • eiহেনরির সমাধানে কমপক্ষে একটির জন্য i
  • npiকমপক্ষে একটির ক্ষেত্রে সম্ভাব্যতা সমাধানের 0 হয়

যা বিভাগকে অসম্ভব করে তোলে। এখন বলার অর্থ হল যে ফলাফলটি পাওয়া অসম্ভব। যদি তা হয় তবে আপনি কেবল এটি ডেটা থেকে মুছে ফেলতে পারেন (@ কার্ডিনালের মন্তব্য দেখুন)। যদি আপনি অত্যন্ত অসম্ভব বোঝাতে চান তবে একটি প্রথম 'সমাধান' খুব কম সংখ্যার সাথে 0 টি সম্ভাবনা বাড়ানো হতে পারে।p=0

প্রদত্ত:

X <- c(0,0,0,8,6,2,0,0)
p <- c(0.406197174,0.088746395,0.025193306,0.42041479,0.03192905,0.018328576,0.009190708,0)

আপনি করতে পারেন:

> p2 <- p + 1e-6
> chisq.test(X,p2)

        Pearson's Chi-squared test

data:  X and p2 
X-squared = 24, df = 21, p-value = 0.2931

তবে এটি সঠিক ফলাফল নয়। যাই হোক না কেন, এই সীমান্তের ক্ষেত্রে চি-স্কোয়ার পরীক্ষা ব্যবহার করা উচিত। একটি উন্নত পদ্ধতির বুটস্ট্র্যাপ পদ্ধতির ব্যবহার করা, একটি অভিযোজিত পরীক্ষার পরিসংখ্যান গণনা করা এবং বুটস্ট্র্যাপের দ্বারা প্রাপ্ত বিতরণের সাথে নমুনাটির সাথে তুলনা করা।

আর কোডে এটি হতে পারে (ধাপে ধাপে):

# The function to calculate the adapted statistic.
# We add 0.5 to the expected value to avoid dividing by 0
Statistic <- function(o,e){
    e <- e+0.5
    sum(((o-e)^2)/e)
}

# Set up the bootstraps, based on the multinomial distribution
n <- 10000
bootstraps <- rmultinom(n,size=sum(X),p=p)

# calculate the expected values
expected <- p*sum(X)

# calculate the statistic for the sample and the bootstrap
ChisqSamp <- Statistic(X,expected)
ChisqDist <- apply(bootstraps,2,Statistic,expected)

# calculate the p-value
p.value <- sum(ChisqSamp < sort(ChisqDist))/n
p.value

এটি 0 এর একটি পি-মান দেয় যা পর্যবেক্ষক এবং প্রত্যাশার মধ্যে পার্থক্যের সাথে সামঞ্জস্যপূর্ণ। মনে মনে, এই পদ্ধতিটি আপনার ডেটা বহুজাতিক বিতরণ থেকে আঁকা বলে ধরে is যদি এই অনুমানটি ধরে না রাখে, পি-মানটি ধরে রাখে না।


1
pi=0iipi=0pi=1/6i61,,10

@ কার্ডিনাল: আমি কেবলমাত্র ডেটা বর্ণনা করেছি, যেখানে প্রত্যাশিত মান 0 তবে পর্যবেক্ষণটি হতে হবে না। এটি ওপি আমাদের যা দিয়েছে (যদিও দ্বিতীয় ভাবাতে এটি সত্যই বরং অবাস্তব বলে মনে হয়)। অতএব অসম্ভবের পরিবর্তে এটি অত্যন্ত অসম্ভব তৈরি করার জন্য পি মানটির সাথে সামান্য বিট যুক্ত করা সাহায্য করবে তবে তবুও চি-স্কোয়ারটি এই ক্ষেত্রে অকার্যকর কারণেই বৃহত পরিমাণে 5 টিরও কম সংখ্যক টেবিল কোষ রয়েছে (যেমনটি প্রদর্শিত হয়েছে) কোড)। আমি আমার উত্তরে বিবেচনা যুক্ত করেছি, পয়েন্টারের জন্য thx।
জোরিস মাইস

pi=0

4

1E(xi)

ψ=ixilog(xinpi)

xiii{red, blue, green, yellow}n55pipi=pj

χ2=i(xinpi)2npi2ψ

fi=xin

ψ=nifilog(fipi)
χ2=ni(fipi)2pi

ψψpi1piψ

H1H2piψ1ψ2exp(ψ1ψ2)H2H1exp(12χ1212χ22)

H2ψ2=χ22=0

χ22npi<10ψ


1
আমি নিশ্চিত যে প্রত্যাশিত ফ্রিকোয়েন্সিগুলি 10 এর চেয়ে বড় হতে পারে না :)
কার্ডিনাল

@ কার্ডিনাল - খুশি যে এটি আপনার আপত্তি ছিল - কারণ এটির অর্থ আমার উত্তরটি অবশ্যই ভাল ছিল :) good
সম্ভাব্যতাব্লোগিক

বাহ, আমি আশা করি আমি এত পিক / কুঁচকে যাওয়ার কারণে খ্যাতি পাচ্ছি না।
কার্ডিনাল

1
ψ2ψχ2χ22ψ0χ22ψχ2
কার্ডিনাল

χ22ψ

3

হ্যাঁ, আপনি নাল অনুমানটি পরীক্ষা করতে পারেন: "এইচ 0: প্রোপ (লাল) = প্রপ (নীল) = প্রপ (সবুজ) = প্রপ (হলুদ) = 1/4" জরিপের অনুপাতের তুলনা করে একটি চি স্কোয়ার পরীক্ষা ব্যবহার করে (0.273 , ...) প্রত্যাশিত অনুপাতে (1/4, 1/4, 1/4, 1/4)


কেবল নিশ্চিত করার জন্য, এটি প্রত্যাশিত অনুপাতগুলির সাথেও কাজ করবে যা একে অপরের সাথে অসম?
এইচপি

4
আপনি যদি পুরো নমুনার আকার জানেন না তবে পরীক্ষাটি অর্থবহ হবে না। ০.০ / ০.০ / ০.০ / ০.০ এর অনুপাতগুলি খুব আলাদা জিনিস বোঝায় যদি সেগুলি আকারের নমুনা থেকে 100 মাপের নমুনার বিপরীতে থাকে
হারুন

হ্যাঁ, আমি মোট নমুনার আকার জানি।
এইচপি

2

পিয়ারসনের চি-স্কোয়ার পরীক্ষার পরীক্ষার পরিসংখ্যান

i=1n(OiEi)2Ei

যদি আপনি লিখেনoi=Oinei=Einn=i=1nOii=1nei=1

ni=1n(oiei)2ei

সুতরাং পর্যবেক্ষিত অনুপাতের তাত্পর্যটির পরীক্ষা নমুনার আকারের উপর নির্ভর করে, যতটা একজন আশা করবেন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.