বিতরণের উদাহরণ যেখানে কেন্দ্রীয় সীমাবদ্ধ উপপাদনের জন্য বৃহত নমুনার আকার প্রয়োজন


19

কিছু বই আকার 30 একটি নমুনা আকার রাষ্ট্র বা উচ্চতর কেন্দ্রীয় সীমা জন্য প্রয়োজনীয় উপপাদ্য দিতে একটি ভাল পড়তা । এক্স¯

আমি জানি এটি সমস্ত বিতরণের জন্য যথেষ্ট নয়।

আমি বিতরণের কয়েকটি উদাহরণ দেখতে ইচ্ছুক যেখানে বড় আকারের নমুনা আকারের (সম্ভবত 100, বা 1000 বা তার বেশি) এমনকি, নমুনাটির বন্টন এখনও মোটামুটি আঁকড়ে রয়েছে।

আমি জানি আমি এর আগেও এরকম উদাহরণ দেখেছি, তবে কোথায় তা আমি মনে করতে পারি না এবং সেগুলি খুঁজে পাই না।


5
শেপ প্যারামিটার সহ গামা বিতরণ বিবেচনা করুন । স্কেলটি 1 হিসাবে নিন (এটি কোনও ব্যাপার নয়)। ধরা যাক আপনি কে কেবল "যথেষ্ট স্বাভাবিক" হিসাবে বিবেচনা করছেন। তারপরে এমন একটি বিতরণ যার জন্য আপনার পর্যাপ্ত স্বাভাবিক হওয়ার জন্য 1000 টি পর্যবেক্ষণ পাওয়া দরকার তার একটি বিতরণ রয়েছে। গামা ( α 0 , 1 ) গামা ( α 0 / 1000 , 1 )αগ্রীক বর্ণমালার তৃতীয় বর্ণ(α0,1)গ্রীক বর্ণমালার তৃতীয় বর্ণ(α0/1000,1)
গ্লেন_বি -রিনস্টেট মনিকা

1
@ গ্লেন_বি, কেন এটি সরকারী উত্তর হিসাবে তৈরি করবেন না এবং এটি কিছুটা বিকাশ করবেন?
গুং - মনিকা পুনরায়

4
@ গ্লেন_ বি এর উদাহরণ হিসাবে একই লাইন বরাবর যে কোনও পর্যাপ্ত দূষিত বিতরণ কাজ করবে। উদাহরণস্বরূপ , যখন অন্তর্নিহিত বিতরণটি একটি সাধারণ (0,1) এবং একটি সাধারণ (বিশাল মান, 1) এর মিশ্রণ হয়, যখন পরবর্তীটির উপস্থিতির খুব ক্ষুদ্র সম্ভাবনা থাকে তবে আকর্ষণীয় জিনিসগুলি ঘটে: (1) বেশিরভাগ সময় , দূষণ দেখা যায় না এবং স্কিউনেসের কোনও প্রমাণ নেই; তবে (২) কখনও কখনও দূষণ দেখা দেয় এবং নমুনায় স্নিগ্ধতা প্রচুর হয়। নমুনা গড় বিতরণ নির্বিশেষে উচ্চ skew হবে তবে বুটস্ট্র্যাপিং ( উদাঃ ) সাধারণত এটি সনাক্ত করতে পারে না।
হোবার

1
@ ভুবার উদাহরণটি শিক্ষণীয়, এটি দেখায় যে কেন্দ্রীয় সীমাবদ্ধ তত্ত্বটি তাত্ত্বিকভাবে ইচ্ছামত বিভ্রান্তিকর হতে পারে। ব্যবহারিক পরীক্ষায়, আমি মনে করি একজনকে নিজেকে জিজ্ঞাসা করা দরকার যে খুব অল্প সংখ্যক প্রভাব খুব কমই ঘটতে পারে কিনা এবং তাত্ত্বিক ফলাফলটিকে একটি সামান্য পরিসর নিয়ে প্রয়োগ করুন।
ডেভিড অ্যাপস্টাইন

উত্তর:


19

কিছু বইতে কেন্দ্রীয় সীমাবদ্ধ উপপাদ্যটির জন্য জন্য একটি ভাল অনুমানের জন্য 30 বা তার বেশি আকারের একটি নমুনা আকারের প্রয়োজন রয়েছে ।X¯

থাম্বের এই সাধারণ নিয়মটি সম্পূর্ণ সম্পূর্ণ অকেজো। অ-স্বাভাবিক বিতরণ রয়েছে যার জন্য এন = 2 ঠিকঠাক করবে এবং অ-সাধারণ বিতরণ যার জন্য অনেক বড় অপর্যাপ্ত - সুতরাং পরিস্থিতিতে স্পষ্টভাবে কোনও বিধিনিষেধ ছাড়াই বিধি বিভ্রান্তিকর। যাই হোক না কেন, এটি যদি এক ধরণের সত্য হয় তবে প্রয়োজনীয় এনটি আপনি যা করছিলেন তার উপর নির্ভর করে vary প্রায়শই আপনি ছোট এন এ ডিস্ট্রিবিউশনের কেন্দ্রের নিকটে ভাল আনুমানিকতা পান তবে লেজটিতে শালীন সান্নিধ্য পেতে আরও অনেক বড় এন প্রয়োজন ।nnnn

সম্পাদনা করুন: এই বিষয়ে অসংখ্য তবে দৃশ্যত সর্বসম্মত মতামতের জন্য এই প্রশ্নের উত্তর এবং কয়েকটি ভাল লিঙ্ক দেখুন। যদিও আমি ইতিমধ্যে পরিষ্কারভাবে এটি বুঝতে পেরেছি, আমি বিন্দুটি পরিশ্রম করব না।

আমি বিতরণের কয়েকটি উদাহরণ দেখতে চাই যেখানে বড় আকারের নমুনা আকার (এমনকি 100 বা 1000 বা এর বেশি) সহ, নমুনাটির বন্টন এখনও মোটামুটি আঁকড়ে রয়েছে।

উদাহরণগুলি তুলনামূলকভাবে নির্মাণ করা সহজ; একটি সহজ উপায় হ'ল অসীমভাবে বিভাজ্য বিতরণটি পাওয়া যায় যা অস্বাভাবিক is আপনার গড়পড়তা বা এটির যোগফল গড়ার সময় যদি আপনার কাছে এমন একটি উপস্থিত থাকে যা সাধারণের কাছাকাছি চলে আসে, 'সাধারণের কাছাকাছি'র সীমানা থেকে শুরু করুন এবং আপনার পছন্দমতো ভাগ করুন। উদাহরণস্বরূপ:

আকৃতির মাপদণ্ড সঙ্গে একটি গামা বন্টন বিবেচনা করুন । স্কেলটি 1 হিসাবে নিন (স্কেল কোনও বিষয় নয়)। ধরা যাক আপনি কে কেবল "যথেষ্ট স্বাভাবিক" হিসাবে বিবেচনা করছেন। তারপরে এমন একটি বিতরণ যার জন্য আপনার পর্যাপ্ত স্বাভাবিক হওয়ার জন্য 1000 টি পর্যবেক্ষণ পাওয়া দরকার তার একটি বিতরণ রয়েছে।গামা ( α 0 , 1 ) গামা ( α 0 / 1000 , 1 )αগ্রীক বর্ণমালার তৃতীয় বর্ণ(α0,1)গ্রীক বর্ণমালার তৃতীয় বর্ণ(α0/1000,1)

সুতরাং আপনি যদি মনে করেন যে am সহ গামা কেবলমাত্র 'যথেষ্ট স্বাভাবিক' -α=20

গামা (20) পিডিএফ

তারপরে পেতে 1000 কে ভাগ করুন :α = 0.02α=20α=0.02

গামা (0.02) পিডিএফ

এর মধ্যে গড়ে 1000 টির প্রথম পিডিএফ আকার হবে (তবে এর স্কেলটি নয়)।

আপনি যদি পরিবর্তে একটি অনন্ত বিভাজ্য বিতরণ চয়ন করেন যা সাধারণের কাছে পৌঁছায় না, যেমন কচী বলুন, তবে এমন কোনও নমুনার আকার নাও পাওয়া যেতে পারে যেখানে নমুনাটির মানে প্রায় সাধারণ বিতরণ থাকে (বা, কিছু ক্ষেত্রে, তারা এখনও স্বাভাবিকতার কাছে যেতে পারে, তবে আপনার কাছে স্ট্যান্ডার্ড ত্রুটির জন্য প্রভাব নেই)।σ/এন

@ দূষিত বিতরণ সম্পর্কে হোয়াইটারের বক্তব্য খুব ভাল একটি; এই কেসটির সাথে কিছু সিমুলেশন চেষ্টা করার জন্য এবং এই জাতীয় অনেক নমুনাগুলিতে জিনিসগুলি কীভাবে আচরণ করে তা দেখুন pay


12

এখানে সরবরাহিত অনেক দুর্দান্ত উত্তরের পাশাপাশি, র্যান্ড উইলকক্স এই বিষয়ে দুর্দান্ত কাগজপত্র প্রকাশ করেছে এবং দেখিয়েছে যে সাধারণ আনুমানিকের পর্যাপ্ততার জন্য আমাদের সাধারণ চেকিং বেশ বিভ্রান্তিমূলক (এবং নমুনার আকারের প্রয়োজনীয়তাটিকে কম দেখায়)। তিনি একটি দুর্দান্ত পয়েন্ট দিয়েছেন যে গড়টি প্রায় স্বাভাবিক হতে পারে তবে এটি কেবল অর্ধেক গল্প যখন আমরা জানি না । যখন অজানা, আমরা সাধারণত পরীক্ষা এবং আত্মবিশ্বাসের সীমাতে বিতরণ ব্যবহার করি। নমুনার বৈকল্পিকতা খুব বেশি পরিমাণে হতে পারে একটি মাপা বিতরণ থেকে খুব দূরে এবং ফলস্বরূপ অনুপাত বিতরণের মতো কিছুই দেখতে পারে না যখনσ t χ 2 t t n = 30 s 2 ˉ Xσσটিχ2টিটিএন=30। সহজ ভাবে বললে, অ স্বাভাবিক messes আপ বেশি এটা messes আপ ।গুলি2এক্স¯


2
এটি করা ভাল পয়েন্ট; এটি প্রায়শই আসলে এর অর্থ হয় না যে লোকেদের সাথে ডিল করে তবে এর কিছু ফাংশন এবং অন্যান্য জিনিস। তবে এটি কেবলমাত্র ডলারই নষ্ট হতে পারে না - আপনি অঙ্ক এবং ডিনোমিনেটরের স্বাধীনতাও হারিয়ে ফেলেন এবং এর লেজগুলিতে কিছু বিস্ময়কর প্রভাব থাকতে পারে। গুলি2
গ্লেন_বি -রিনস্টেট মনিকা

9

আপনি এই কাগজটি সহায়ক (বা কমপক্ষে আকর্ষণীয়) পেতে পারেন:

http://www.umass.edu/remp/Papers/Smith&Wells_NERA06.pdf

ইউমাসের গবেষকরা আসলে আপনি যা জিজ্ঞাসা করছেন তার অনুরূপ একটি গবেষণা চালিয়েছিল। কোন নমুনার আকারে নির্দিষ্ট বিতরণ করা ডেটা সিএলটি-র কারণে সাধারণ বিতরণ অনুসরণ করে? স্পষ্টতই মনোবিজ্ঞানের পরীক্ষাগুলির জন্য সংগৃহীত প্রচুর ডেটা সাধারণভাবে বিতরণের কাছাকাছি কোথাও নেই, সুতরাং তাদের পরিসংখ্যানগুলিতে কোনও অনুমান করার জন্য শৃঙ্খলা সিএলটি-র উপর খুব বেশি নির্ভর করে।

প্রথমে তারা অভিন্ন, বিমোডাল এবং একটি বিশৃঙ্খলা যা সাধারণ ছিল সেই ডেটাতে পরীক্ষা চালিয়েছিল। কোলমোগোরভ-স্মারনভ ব্যবহার করে গবেষকরা পরীক্ষা করেছিলেন যে কতগুলি বন্টন স্বাভাবিকতার জন্য স্তরে প্রত্যাখ্যাত হয়েছিল ।α=0.05

Table 2. Percentage of replications that departed normality based on the KS-test. 
 Sample Size 
           5   10   15   20   25  30 
Normal   100   95   70   65   60  35 
Uniform  100  100  100  100  100  95 
Bimodal  100  100  100   75   85  50

অদ্ভুতভাবে যথেষ্ট, সাধারণত বিতরণ করা তথ্যের 65 শতাংশ 20 টি নমুনা আকারের সাথে প্রত্যাখ্যান করা হয়েছিল, এবং 30 টির একটি নমুনা আকার থাকা সত্ত্বেও 35% প্রত্যাখ্যান করা হয়েছিল।

এরপরে তারা ফ্লেইশম্যানের পাওয়ার পদ্ধতি ব্যবহার করে তৈরি বেশ কয়েকটি বেশিরভাগ স্কিউ বিতরণ পরীক্ষা করে:

ওয়াই=একটিএক্স+ +এক্স2+ +এক্স3+ +এক্স4

এক্স সাধারণ বিতরণ থেকে টানা মানটির প্রতিনিধিত্ব করে যখন ক, বি, সি এবং ডি স্থির হয় (দ্রষ্টব্য যে a = -c)।

তারা 300 পর্যন্ত নমুনা আকারের সাথে পরীক্ষা চালিয়েছিল

Skew  Kurt   A      B      C       D 
1.75  3.75  -0.399  0.930  0.399  -0.036 
1.50  3.75  -0.221  0.866  0.221   0.027 
1.25  3.75  -0.161  0.819  0.161   0.049 
1.00  3.75  -0.119  0.789  0.119   0.062 

তারা দেখতে পান যে স্কিউ এবং কার্টের সর্বোচ্চ স্তরে (1.75 এবং 3.75) যে 300 এর নমুনা আকারগুলি নমুনা তৈরি করে না তার অর্থ একটি সাধারণ বন্টন অনুসরণ করে।

দুর্ভাগ্যক্রমে, আমি মনে করি না যে এটি আপনি যা খুঁজছেন ঠিক তা-ই, তবে আমি হোঁচট খেয়ে এটিকে আকর্ষণীয় মনে করেছি এবং ভেবেছিলাম আপনিও এটি পেতে পারেন।


4
" অদ্ভুতভাবে যথেষ্ট, সাধারণভাবে বিতরণ করা তথ্যের 65 শতাংশ 20 টি নমুনা আকারের সাথে প্রত্যাখ্যান করা হয়েছিল, এবং 30 টিরও একটি নমুনা আকার থাকা সত্ত্বেও 35% প্রত্যাখ্যান করা হয়েছিল " "- তখন মনে হচ্ছে তারা পরীক্ষাটি ভুলভাবে ব্যবহার করছে; সম্পূর্ণরূপে নির্দিষ্ট হওয়া সাধারণ ডেটাতে (যা টেস্টের জন্য যা তা) সাধারণতার পরীক্ষা হিসাবে, যদি তারা এটি সঠিকভাবে ব্যবহার করে থাকে তবে এটি অবশ্যই সঠিক হবে
গ্লেন_বি -রিনস্টেট মনিকা

5
@ গ্লেেন_ বি: এখানে সম্ভাব্য ত্রুটির একাধিক উত্স রয়েছে। আপনি যদি দস্তাবেজটি পড়েন তবে আপনি নোট করবেন যে এখানে "স্বাভাবিক" হিসাবে তালিকাভুক্ত যা আসলে 50 এর সাথে গড় রেন্ডম পরিবর্তিত হয় এবং নিকটতম পূর্ণসংখ্যার 10 স্ট্যান্ডার্ড বিচ্যুতি হয় । সুতরাং, সেই অর্থে, ব্যবহৃত পরীক্ষাটি ইতিমধ্যে একটি ভুল বর্ণিত বিতরণ ব্যবহার করছে। দ্বিতীয়ত, এটি এখনও উপস্থিত রয়েছে যা তারা ভুলভাবে পরীক্ষাগুলি সম্পাদন করেছে, কারণ আমার প্রতিরূপে প্রয়াসগুলি দেখায় যে একটি নমুনার জন্য 20 টি পর্যবেক্ষণ ব্যবহার করা হয়েছে, প্রত্যাখার সম্ভাবনা প্রায় 27%। (অবিরত)
কার্ডিনাল

5
(অবিরত) তৃতীয়, উপরোক্ত নির্বিশেষে কিছু সফ্টওয়্যার অ্যাসিম্পটোটিক বিতরণ ব্যবহার করতে পারে এবং প্রকৃতটি নয়, যদিও 10 কে আকারের নমুনা আকারে এটি খুব বেশি গুরুত্ব পাবে না (যদি সম্পর্কগুলি কৃত্রিমভাবে ডেটাতে উত্সাহিত না করা হত)। অবশেষে, আমরা সেই দস্তাবেজের শেষের নিকটে নিম্নলিখিত পরিবর্তে অদ্ভুত বিবৃতি পেয়েছি: দুর্ভাগ্যক্রমে, এস-প্লাসে কেএস-পরীক্ষার বৈশিষ্ট্যগুলি কাজ সীমাবদ্ধ করে। বর্তমান অধ্যয়নের জন্য পি-মানগুলি একাধিক প্রতিলিপিগুলি হস্ত দ্বারা সংকলিত হয়েছিল। নির্বাচিত আলফা স্তরের তুলনায় পি-মানগুলি গণনা করার জন্য এবং তাদের বিষয়ে একটি রায় দেওয়ার জন্য একটি প্রোগ্রাম প্রয়োজন।
কার্ডিনাল

3
হাই @ গ্লেন_ বি। আমি বিশ্বাস করি না যে রাউন্ডিং এখানে প্রত্যাখ্যান হার কমিয়ে দেবে কারণ আমি বিশ্বাস করি যে তারা বৃত্তাকার ডেটা (যা পরীক্ষাটি ভুল বর্ণিত বিতরণ ব্যবহার করেছিল বলে বোঝাতে চেয়েছিল) ব্যবহার করে সত্যিকারের সাধারণ বিতরণের বিরুদ্ধে পরীক্ষা করছিল । (সম্ভবত আপনি পরিবর্তে কেএস পরীক্ষাটি একটি বিস্তৃত বিতরণে ব্যবহারের কথা ভেবেছিলেন)) কেএস পরীক্ষার জন্য নমুনার আকার 2000 নয় 10000 ছিল; তারা টেবিলটি পেতে প্রতিটি 10000 নমুনা আকারে প্রতিলিপি করেছেন। অন্ততপক্ষে, ডকুমেন্টটি স্কিমিং থেকে বর্ণনাটি সম্পর্কে আমার বোঝা ছিল।
কার্ডিনাল

3
@ কার্ডিনাল - আপনি অবশ্যই সঠিক, তাই সম্ভবত এটি বড় আকারের নমুনা আকারগুলিতে প্রত্যাখ্যানগুলির যথেষ্ট অংশের উত্স হতে পারে। পুনরায়: " কেএস পরীক্ষার জন্য নমুনার আকারটি ২০০০ নয়, 10000 ছিল " ... ঠিক আছে, এটি ক্রমশ বিজোড় শোনাচ্ছে। চারপাশে অন্যভাবে না বলার পরিবর্তে তারা কেন ভাবেন যে এই শর্তগুলির কোনওটিরই খুব মূল্য ছিল of
গ্লেন_বি -রিনস্টেট মনিকা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.