আর-এ সাবধানতা - চি-স্কোয়ারের আনুমানিকতা ভুল হতে পারে


40

আমার কাছে ফায়ার ফাইটার প্রবেশিকা পরীক্ষার ফলাফলগুলি দেখানো ডেটা রয়েছে। আমি এই অনুমানটি পরীক্ষা করছি যে পরীক্ষার ফলাফল এবং জাতিগততা পারস্পরিক স্বতন্ত্র নয়। এই পরীক্ষা করার জন্য, আমি আর একটি পিয়ারসন চি-স্কোয়ার পরীক্ষা ফলাফল দেখান আমি যা প্রত্যাশা দৌড়ে, কিন্তু এটা যে একটি সতর্কবার্তা দিয়েছে " In chisq.test(a) : Chi-squared approximation may be incorrect।"

> a
       white black asian hispanic
pass       5     2     2        0
noShow     0     1     0        0
fail       0     2     3        4
> chisq.test(a)

    Pearson's Chi-squared test

data:  a
X-squared = 12.6667, df = 6, p-value = 0.04865

Warning message:
In chisq.test(a) : Chi-squared approximation may be incorrect

কেউ কি জানে কেন এটি একটি সতর্কতা দিয়েছে? এটি কি কারণ আমি কোনও ভুল পদ্ধতি ব্যবহার করছি?


2
এত কম পরিমাপ সহ কোনও ফলাফলের উপর কখনই বিশ্বাস করবেন না। যখন প্রতিটি কলামে আপনার কয়েকশ লোক থাকে, তখন আপনার ফলাফলগুলির উপর আপনার কিছুটা আস্থা থাকতে পারে। তবুও, ফলাফলটি প্রতিযোগিতার চেয়ে নিজের চেয়ে বেশি পাড়া বা ধন-সম্পদের কারণে হতে পারে।
রডরিগো

উত্তর:


41

এটি সতর্কতা দিয়েছে কারণ অনেকগুলি প্রত্যাশিত মান খুব ছোট হবে এবং তাই পি এর অনুমানগুলি সঠিক নাও হতে পারে।

ইন Rআপনি ব্যবহার করতে পারেন chisq.test(a, simulate.p.value = TRUE)অনুকরণ পি মান ব্যবহার করতে।

যাইহোক, এই জাতীয় ছোট কক্ষের আকারের সাথে, সমস্ত অনুমানগুলি দরিদ্র। চি-স্কোয়ার বা লজিস্টিক রিগ্রেশন দিয়ে কেবল পাস বনাম পরীক্ষার ব্যর্থ ("কোনও শো" মুছে ফেলা) পরীক্ষা করা ভাল হতে পারে। প্রকৃতপক্ষে, যেহেতু এটি বেশ পরিষ্কার যে পাস / ব্যর্থ গ্রেডটি একটি নির্ভরশীল পরিবর্তনশীল, তাই লজিস্টিক রিগ্রেশন আরও ভাল হতে পারে।


simulate.p.value = TRUEযুক্ত হলে আসলে কী হয় chisq.test?
Al14

1
এটি পি মান খুঁজে পেতে সিমুলেশনগুলি ব্যবহার করে
পিটার ফ্লুম - মনিকা পুনরায়

1
মনে রাখবেন যে প্রান্তিকের শর্তসাপেক্ষেsimulate.p.value = TRUE সিমুলেশন ব্যবহার করে , তাই প্রকৃতপক্ষে ফিশার হুবহু পরীক্ষার একটি সংস্করণ।
কেজেটিল বি হালওয়ারসেন

23

বিষয়টি হ'ল পরীক্ষার পরিসংখ্যান বিতরণে চি-স্কোয়ারের সান্নিধ্য মোটামুটি সাধারণভাবে বিতরণ করা গণনাগুলির উপর নির্ভর করে। যদি অনেকগুলি প্রত্যাশিত গণনা খুব সামান্য হয় তবে অনুমানটি খুব কম হতে পারে।

নোট করুন যে কন্টিনজেন্সি টেবিলগুলিতে স্বাধীনতার জন্য চি-বর্গাকার পরিসংখ্যানের প্রকৃত বিতরণটি বিচ্ছিন্ন, ধারাবাহিক নয়।

Noshow বিভাগটি সমস্যার ক্ষেত্রে বড় অবদান রাখবে; একটি বিষয় বিবেচনা করতে হবে নোশো মার্জ করা এবং ব্যর্থ। আপনি এখনও সতর্কতা পাবেন তবে এটি ফলাফলকে এতটা প্রভাবিত করবে না এবং বিতরণটি যথেষ্ট যুক্তিসঙ্গত হওয়া উচিত (সতর্কবার্তা দেওয়ার আগে যে নিয়মটি প্রয়োগ করা হচ্ছে তা খুব কঠোর)।

তবে যে কোনও ক্ষেত্রে, আপনি যদি মার্জিনগুলিতে শর্তটি রাখতে ইচ্ছুক হন (যেমন ফিশারের সঠিক পরীক্ষা চালানোর সময় আপনি করেন) আপনি খুব সহজেই আর এর সাথে সমস্যাটি মোকাবেলা করতে পারেন ; simulate.p.valueযুক্তি সেট করুন TRUE; তারপরে আপনি পরীক্ষার পরিসংখ্যান বিতরণে চি-স্কোয়ার সান্নিধ্যের উপর নির্ভরশীল নন।


আপনি দয়া করে আমাকে ব্যাখ্যা করতে পারেন কেন ".. পরীক্ষা পরিসংখ্যান বিতরণে চি-স্কোয়ারের সান্নিধ্য সাধারণভাবে বিতরণ করা গণনাগুলির উপর নির্ভর করে"? উদাহরণস্বরূপ যদি একটি 2x2 কন্টিজেন্সি টেবিল থাকে তবে এটি কীভাবে সত্য হতে পারে তা আমি বুঝতে পারি না do গণনাগুলি (প্রায়) সাধারণভাবে কীভাবে বিতরণ করা যায়? সাদা, কালো, হিস্পানিক এবং এশিয়ান গণনাগুলি কীভাবে সাধারণত বিতরণ করা যায়? আপনি কি সামান্য সমান মানে? এবং এটি এই প্রশ্নের সাথে কীভাবে সম্পর্কিত? : stats.stackexchange.com/questions/141407/…
এরোজেনিন

গণনা র‌্যান্ডম ভেরিয়েবলের বহু বিতরণ প্রায় স্বাভাবিক হওয়া দরকার (যদিও এটি অধঃপতিত হবে)। পর্যবেক্ষণ গণনার সেটটি এই মাল্টিভারিয়েট সাধারণ থেকে কেবলমাত্র একক ভেক্টর-পর্যবেক্ষণ - আপনি একটি পর্যবেক্ষণ থেকে বিতরণ বিচার করতে পারবেন না। আমি যে মূল্যায়নটির কথা বলছি তার জন্য আপনাকে অনুমানের উপর নির্ভর করতে হবে; এটি পৃথক কক্ষের জন্য এটি করা যুক্তিসঙ্গতভাবে সহজ (যেমন শূন্যের নীচে প্রদত্ত একটি ঘরের জন্য প্রান্তিক বিতরণ)। আপনি পুরো ঘর জুড়ে গণনাগুলির সংমিশ্রণ করছেন বলে মনে হয়, তবে
এটির

প্রথমে সময় দেওয়ার জন্য আপনাকে ধন্যবাদ! সুতরাং আপনি বলছেন যে কন্টিনিজেন্সি টেবিলটি "নীচের দিকে" গণনা করা উচিত (অধঃপতিতভাবে) মাল্টিভারিয়ট হওয়া স্বাভাবিক, যদি আমরা অনেক পর্যবেক্ষণের দিকে তাকাই তবে? এর অর্থ কি এই নয় যে প্রতিটি স্বতন্ত্র কক্ষের গণনাও স্বাভাবিক হওয়া উচিত এবং এছাড়াও "পাশের পাশে" কন্টিনজেন্সি টেবিল গণনা করা হয় (আমি ধরে নিই যে এটি 'পার হয়ে' দিয়ে আপনি কী বোঝাতে চান)? এফ.এক্স.একটি ঘরে প্রত্যাশিত মান 5 সহ সাধারণভাবে প্রায় 5 টি বিতরণ করা উচিত, তাই না? সুতরাং যদি কোনও কক্ষের জুড়ে 40 টির মান প্রত্যাশা করে থাকে তবে এই ঘরটি সাধারণত 40 এর কাছাকাছি বিতরণ করা উচিত এবং একসাথে 5 এবং 40 এর গড় পরিমাণে বহুবিবাহ করা উচিত, না?
ইরোসেনেনিন

1
r×crc(r1)(c1)
Glen_b

এটি ভারী এবং খুব ইন্টারেসিটিং। আপনার যদি কখনও সময় থাকে তবে আমি আমার প্রথম প্রশ্নটি এখানে পোস্ট করেছি: stats.stackexchange.com/questions/142429/…
ইরোসেনেনিন

12

এই জাতীয় ছোট পরিসংখ্যানগুলির জন্য, আপনি ফিশারের সঠিক পরীক্ষাটি ব্যবহার করতে পারেন:

> fisher.test(a)

        Fisher's Exact Test for Count Data

data:  a 
p-value = 0.02618
alternative hypothesis: two.sided 

3

দয়া করে পিয়ারসনের চি-স্কোয়ার পরীক্ষার নিবন্ধের "অনুমান" বিভাগটি দেখুন ।

সংক্ষেপে, যখন আপনার টেবিলের যে কোনও একটি কোষের সংখ্যা 5 এর চেয়ে কম হয় তবে অনুমানগুলির একটি ভেঙে যায়। আমি মনে করি এটিই ত্রুটি বার্তাটি উল্লেখ করছে। লিঙ্কযুক্ত নিবন্ধে আপনি প্রয়োগ করতে পারেন এমন সংশোধন সম্পর্কেও জানতে পারেন।


6
χ2

0

আপনার মূল প্রশ্নটি নমুনা আকার সম্পর্কে কথা বলে, তবে আমি দেখতে পাচ্ছি যে দুটি দলেরও বেশি তুলনা করা হয়েছে। পরীক্ষা থেকে পি-মানটি 0.05 বা তার চেয়ে কম হলে ফলাফলগুলি ব্যাখ্যা করা কঠিন হবে be অতএব, আমি এইরকম পরিস্থিতিতে আমি একটি সংক্ষিপ্ত স্ক্রিপ্ট ভাগ করছি:

# Load the required packages:
library(MASS) # for chisq
library(descr) # for crosstable

CrossTable(a$exam_result, a$ethnicity
       fisher = T, chisq = T, expected = T,
       prop.c = F, prop.t = F, prop.chisq = F, 
       sresid = T, format = 'SPSS')

এই কোডটি পিয়ারসনের চি-স্কোয়ার এবং ফিশারের চি স্কোয়ার উভয়ই উত্পন্ন করবে। এটি প্রতিটি টেবিল এন্ট্রিগুলির সংখ্যার পাশাপাশি সংখ্যার উত্পাদন করে। মানকৃত অবশিষ্টাংশ বা জেড-মান স্কোরের উপর ভিত্তি করে অর্থাৎ,

sresid

এটি যদি সীমার বাইরে থাকে তবে | 1. 1.6 | উদাহরণস্বরূপ, -1.96 এর চেয়ে কম বা 1.96 এর চেয়ে বড়, তবে এটি উল্লেখযোগ্য পি <0.05। সাইন ইতিবাচকভাবে সম্পর্কিত বা নেতিবাচক কিনা তা নির্দেশ করবে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.