আনোভা: প্রতি গ্রুপে কয়েকটি নমুনা সহ অনেক গ্রুপের জন্য স্বাভাবিকতার অনুমানের পরীক্ষা করা


12

নিম্নলিখিত পরিস্থিতিটি ধরুন:

আমাদের ছোট সংখ্যার আকারের (যেমন এন = 3) সহ একটি বৃহত সংখ্যা রয়েছে (যেমন 20)। আমি লক্ষ্য করেছি যে আমি যদি ইউনিফর্ম বিতরণ থেকে মান উত্পন্ন করি তবে ত্রুটি বিতরণ অভিন্ন হলেও অবশিষ্টাংশগুলি প্রায় স্বাভাবিক দেখাবে। নিম্নলিখিত আর কোডটি এই আচরণটি দেখায়:

n.group = 200
n.per.group = 3

x <- runif(n.group * n.per.group)
gr <- as.factor(rep(1:n.group, each = n.per.group))
means <- tapply(x, gr, mean)
x.res <- x - means[gr]
hist(x.res)

আমি যদি তিনটির একটি দলে কোনও নমুনার অবশিষ্টাংশ দেখি তবে আচরণের কারণ স্পষ্ট:

r1=x1mean(x1,x2,x3)=x1x1+x2+x33=23x1x2x3.

এখানে চিত্র বর্ণনা লিখুন

যেহেতু মোটামুটি ভিন্ন ভিন্ন স্ট্যান্ডার্ড বিচ্যুতি সহ এলোমেলো ভেরিয়েবলের যোগফল, এর বিতরণ স্বতন্ত্র পদগুলির তুলনায় সাধারণ বিতরণের বেশ কিছুটা কাছাকাছি।r1

এখন ধরে নিন যে সিমুলেটেড ডেটার পরিবর্তে সত্যিকারের ডেটা নিয়ে আমার একই পরিস্থিতি রয়েছে। আমি মূল্যায়ন করতে চাই যে আনোভা স্বাভাবিকতা সম্পর্কিত ধারণা অনুধাবন করে। সর্বাধিক প্রস্তাবিত পদ্ধতিগুলি অবশিষ্টাংশগুলির (যেমন কিউকিউ-প্লট) ভিজ্যুয়াল পরিদর্শন বা অবশিষ্টাংশগুলির উপর একটি স্বাভাবিকতা পরীক্ষা করার পরামর্শ দেয়। এর উপরে আমার উদাহরণ হিসাবে ছোট গ্রুপ আকারের জন্য সত্যই অনুকূল নয়।

আমার কাছে যখন ছোট আকারের অনেকগুলি গোষ্ঠী থাকে তখন এর চেয়ে আরও ভাল বিকল্প কি থাকতে পারে?


1
বেশ কয়েকটি কারণে এটি প্রদর্শিত হয় এটি একটি অ-সমস্যা। প্রথমত, আপনার অবশিষ্টাংশগুলি অভিন্ন দেখাবে: এটি দেখতে বিশাল সংখ্যক গোষ্ঠীর জন্য একটি হিস্টোগ্রাম দেখুন। দ্বিতীয়ত, বেশিরভাগ বিশ্লেষণের জন্য অবশিষ্টাংশের স্বাভাবিকতা খুব কম গুরুত্ব দেয়; স্যাম্পলিং বিতরণের আনুমানিক স্বাভাবিকতাটি কী তা গুরুত্বপূর্ণ। তাহলে আপনার আবেদনের কোন বিশেষ দিকটি আপনাকে ধরে নিল যে আসল সমস্যা আছে?
whuber

1
ক) আমার অবশিষ্টাংশগুলি অভিন্ন দেখাবে না। আমি এটি 20 থেকে 20000 পর্যন্ত বেশ কয়েকটি গ্রুপের জন্য পরীক্ষা করেছি (গ্রুপ অনুসারে নমুনা নয়) I প্রশ্নের সাথে আমি একটি উদাহরণ সংযুক্ত করেছি; এটি সাধারণ ও স্বতন্ত্র প্রবণতার সাথে ইউনিফর্ম এবং সাধারণের মধ্যে একটির মতো প্রদর্শিত হয়। খ) আমি জানি যে এটি নমুনা বিতরণের আনুমানিক স্বাভাবিকতা সম্পর্কে। এটি প্রশ্নের পুরো বিষয়টি হ'ল অবশিষ্টাংশগুলি স্বাভাবিক দেখায় তবে নমুনা বিতরণ হয় না। সুতরাং আমি নমুনা বিতরণের বৈশিষ্ট্যগুলি পরীক্ষা করতে অবশিষ্টাংশগুলি ব্যবহার করতে পারি না।
এরিক

2
ঐটা ঠিক. তবে আপনি কী ত্রুটিগুলি বিতরণে সত্যই আগ্রহী বা আপনি এনওভা সম্পাদনে আগ্রহী? (আমি প্রশ্ন পরোক্ষভাবে করার চেষ্টা করছি না উপেক্ষা করা হবে না - এটি একটি চটুল আপনার যে সমস্যা আছে উত্থাপিত হয়েছে -। কিন্তু আমি শুধুমাত্র কিনা আপনি কি সত্যিই আপনার তথ্য বিশ্লেষণ করা চালিয়ে যেতে একটি উত্তর প্রয়োজন হতাশ করছি)
whuber

3
তবে আপনার ক্ষেত্রে আনোভার দৃust়তা তদন্ত করতে আপনি একই সিমুলেশনগুলি ব্যবহার করতে পারেন!
কেজেটিল বি হালওয়ারসেন

4
একটি সামান্য স্পর্শকাতর তবে প্রাসঙ্গিক মন্তব্য: সাধারণভাবে, হাইপোথিসিস টেস্ট করার আগে স্বাভাবিকতার জন্য পরীক্ষা (বা অন্য কোনও মডেল অনুমান) ব্যবহার করে (কমপক্ষে) তিনটি সমস্যা উপস্থাপিত: 1) আপনি যদি এটি করেন তবে আপনাকে একাধিক পরীক্ষার জন্য অ্যাকাউন্টিং করতে হবে; ২) বিকল্প অনুমানকে প্রত্যাখ্যান করা উদাহরণস্বরূপ, "সাধারণ নয়" এর অর্থ এই নয় যে আপনি স্বাভাবিকতা উপসংহার করতে পারবেন; 3) মডেল অনুমানের জন্য টেস্টগুলির নিজস্ব মডেল অনুমান রয়েছে, তবে আপনি কোথায় থামবেন?
মার্থা

উত্তর:


1

এই উত্তরে কাজ করা, সম্পূর্ণ করা হয়নি। আমার এ সম্পর্কে কিছুটা অন্তর্দৃষ্টি আছে তবে এটি ব্যাখ্যা করতে কিছুটা সময় লাগে। এর জন্য, আসুন বিবেচনা করা যাক স্বল্প সংখ্যার জন্য স্ট্যান্ডার্ড বিচ্যুতি পক্ষপাতদুষ্ট। এর কারণ হ'ল আমরা যদি কোনও দুটি সংখ্যার , আমরা নির্বিচারে নমুনাটিকে to হিসাবে নির্ধারিত করি যেখানে জনসংখ্যার অর্থ, খুব ভালভাবে যে কোনও জায়গায় থাকতে পারে মধ্যে বিরতি বা এটি বা হতে পারে । এর অর্থ হ'ল গড়ে । সুতরাং, এটা কেবলমাত্র যখন যে এই পক্ষপাত ছোট হয়েa + বিa<ba+b2σ(a,b)σ<aσ>bSD<σn>100। প্রতিটি ছোট ছোট সংখ্যার নমুনার জন্য এসডি'র দীর্ঘ সিরিজের জন্য, এসডি গণনা আরও সুনির্দিষ্ট এবং আরও স্পষ্টতই ত্রুটিযুক্ত হয়ে ওঠে।

এখন হতাশায় আমাদের হাত বাড়িয়ে দেওয়ার পরিবর্তে, আমরা আমাদের এসডি'র জন্য সাধারণ পরিস্থিতিতে স্বল্প সংখ্যার সংশোধন প্রয়োগ করতে পারি। (হা! আমাদের দুর্দশার সমাধান রয়েছে))

SD(n)μ(n)=2n1Γ(n2)Γ(n12)=114n732n219128n3+O(n4) দেখুনE[μ]

জন্য এটি হ'ল । যার অর্থ অনুমান করার জন্য আমাদের এসডিটিকে এত বেশি ভাগ করতে হবে ।Γ ( 3n=3σΓ(32)=π20.8862269255σ

এখন আপনি যে ক্ষেত্রে উপস্থাপন করছেন সে ক্ষেত্রে আপনার আরও বেশ কয়েকটি জিনিস চলছে। যেমনটি ঘটে, অভিন্ন বিতরণের অবস্থানের সর্বোত্তম পরিমাপটি গড় নয়। যদিও নমুনাটির গড় এবং নমুনা মিডিয়ান উভয়ই মাঝপয়েন্টের পক্ষপাতদুষ্ট অনুমানক, তবে উভয়ই নমুনা মধ্য-পরিসীমা হিসাবে দক্ষ নয়, যেমন, স্যাম্পল সর্বাধিকের পাটিগণিত গড় এবং নমুনা ন্যূনতম, যা সর্বনিম্ন-বৈকল্পিক নিরপেক্ষ অনুমানক UMVU মিডপয়েন্টের অনুমানকারী (এবং সর্বাধিক সম্ভাবনার অনুমানও)।

এখন বিষয়টি মাংসের কাছে। আপনি যদি চূড়ান্ত মানগুলির গড় ব্যবহার করেন তবে অবস্থানের পরিমাপের প্রকরণটি আরও কম হবে, যদি আপনার ডেটা সত্যই অভিন্ন বন্টিত হয়। এটি সাধারণত বিতরণ করা হতে পারে কারণ একক চূড়ান্ত মান লেজটি স্বাভাবিক হতে পারে। কেবলমাত্র 3-নমুনা সহ, মানক বিচ্যুতির সংশোধন প্রয়োজন হবে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.