কেন কেন্দ্রীয় সীমাবদ্ধ উপপাদ্য একক নমুনা নিয়ে কাজ করে?


12

আমাকে সবসময় শিখানো হয়েছে যে আপনি যখন নমুনাটি বারবার ব্যবহার করেন তখন প্রতিটি নমুনা যথেষ্ট পরিমাণে বড় হয় সিএলটি কাজ করে। উদাহরণস্বরূপ, কল্পনা করুন আমার এক হাজার নাগরিকের দেশ রয়েছে। সিএলটি সম্পর্কে আমার ধারণাটি হ'ল এমনকি যদি তাদের উচ্চতা বিতরণ স্বাভাবিক না হয় তবে আমি যদি 50 জন লোকের 1000 টি নমুনা গ্রহণ করি (যেমন প্রতিটি 50 জন নাগরিকের 1000 জরিপ পরিচালনা করি) তবে প্রতিটি নমুনার জন্য তাদের গড় উচ্চতা গণনা করা হবে, এই নমুনার বন্টন মানে স্বাভাবিক হবে।

তবে গবেষকরা বারবার নমুনা নিয়েছেন এমন বাস্তব বিশ্বের ঘটনা আমি কখনও দেখিনি। পরিবর্তে, তারা একটি বড় নমুনা নেয় (যেমন তাদের উচ্চতা সম্পর্কে 50,000 নাগরিককে জরিপ করে) এবং সেখান থেকে কাজ করে।

পরিসংখ্যান বই কেন পুনরাবৃত্তি নমুনা পড়ায় এবং বাস্তব বিশ্বের গবেষকরা কেবল একটি একক নমুনা পরিচালনা করেন?

সম্পাদনা করুন: আসল ওয়ার্ল্ড কেস সম্পর্কে আমি ভাবছি যে 50,000 টুইটার ব্যবহারকারীদের একটি ডেটাসেটের পরিসংখ্যান করে। স্পষ্টতই সেই ডেটাসেটটি পুনরাবৃত্তি হওয়া নমুনাগুলি নয়, এটি 50,000 এর মধ্যে একটি বড় নমুনা।


50,000 থেকে 1000 এর নমুনা নেওয়া প্রায় 50,000 থেকে স্বতন্ত্রভাবে 1000 একক নমুনা নেওয়ার মতোই। নমুনা যত ছোট হবে (বা মহাবিশ্বের বৃহত্তর) তত বেশি হেল দেখতে হবে।
টমাস আহলে

উত্তর:


14

CLT (তার বিভিন্ন ধরনের কিছু অন্তত) আমাদেরকে যে সীমা মধ্যে বলে এন একটি একক প্রমিত নমুনা বিতরণের গড় ( এক্স¯-μσ/এন

এন=50এন=50,000

এক্স¯

দৃrict়ভাবে বললে এটি সিএলটি প্রদর্শিত হচ্ছে না, এটি বেরি-এসিনের উপপাদ্যটি প্রদর্শনের আরও নিকটবর্তী, যেহেতু এটি স্বাভাবিকতার দিকে দৃষ্টিভঙ্গিটি আসে তার হার সম্পর্কে কিছু প্রদর্শন করে - তবে পরিবর্তে আমাদের সিএলটি নিয়ে যায়, তাই এটি অনুপ্রেরণা হিসাবে যথেষ্ট পরিবেশন করে (এবং বাস্তবে, বেরি-এসিনের মতো প্রায়শই লোকেরা যেভাবেই সীমাবদ্ধ নমুনাগুলিতে ব্যবহার করতে চায় তার কাছাকাছি আসে, যাতে অনুপ্রেরণা কিছুটা অর্থে কেন্দ্রীয় সীমাবদ্ধ তত্ত্বের তুলনায় অনুশীলনে আরও কার্যকর হতে পারে) ।

এই নমুনা অর্থ বিতরণ স্বাভাবিক হবে।

ঠিক আছে, না, এগুলি স্বাভাবিক হবে না তবে তারা অনুশীলনে স্বাভাবিকের খুব কাছাকাছি থাকবে (উচ্চতা কিছুটা স্কু তবে খুব বেশি স্কু নয়)।

এন=50

আমি যে আসল ওয়ার্ল্ড কেসটির বিষয়ে ভাবছি তা হ'ল 50,000 টুইটার ব্যবহারকারীদের একটি ডেটাসেটের পরিসংখ্যান। স্পষ্টতই সেই ডেটাসেটটি পুনরাবৃত্তি হওয়া নমুনাগুলি নয়, এটি 50,000 এর মধ্যে একটি বড় নমুনা।

অনেক বিতরণের জন্য, 50,000 আইটেমের একটি নমুনা গড়ের একটি সাধারণ বিতরণের খুব কাছে থাকবে - তবে এটির নিশ্চয়তা নেই এমনকি এন = 50,000 এও যে আপনার একটি সাধারণ বিতরণের খুব কাছাকাছি থাকবে (যদি পৃথক আইটেমগুলির বিতরণ পর্যাপ্ত হয় তবে উদাহরণস্বরূপ, স্কিউড, তারপরে নমুনার মাধ্যমের বন্টন এখনও সাধারণ আনুমানিক অযোগ্য করতে যথেষ্ট পরিমাণে স্কিউ হতে পারে)।

( বেরি-এসিন উপপাদ্যটি আমাদের অনুমান করতে পরিচালিত করেছিল যে ঠিক সেই সমস্যাটি ঘটতে পারে - এবং প্রদর্শিতভাবে এটি ঘটায় the সিএলটি প্রয়োগ করে তবে উদাহরণস্বরূপে দেওয়া সহজ তবে N = 50,000 এর জন্য প্রায় যথেষ্ট বড় নমুনা নয়) মানকযুক্ত নমুনা মানে সাধারণের কাছাকাছি হওয়া)


50,000 যথেষ্ট পরিমাণে বড় কিনা তা পরীক্ষা করতে, কেউ উদাহরণস্বরূপ R তে একটি সিমুলেশন করতে পারে, তাই না? আমি নমুনার গড় এবং মান বিচ্যুতি ব্যবহার করব, তবে কীভাবে আমি আমার নমুনার একই বিতরণ থেকে অনুকরণ করতে নিশ্চিত করব?
অ্যামনেট

কঠোরভাবে বলতে গেলে, আপনার জনসংখ্যা বিতরণ থেকে অনুকরণ করা দরকার। আপনি আপনার নমুনার বন্টনকে জনসংখ্যার বিতরণের প্রাক্কলন হিসাবে বিবেচনা করতে পারেন (এটি বুটস্ট্র্যাপিংয়ের অনুরূপ) - তবে এই ধরনের উদ্দেশ্যে এটি পর্যাপ্ত হবে না। উদাহরণস্বরূপ, কাউচি বিতরণ থেকে একটি নমুনা আঁকুন এবং তারপরে প্রতিস্থাপনের সাথে পুনরায় মডেলিংয়ের বিষয়টি বিবেচনা করুন। (ক্রমবর্ধমান বৃহত নমুনাগুলির জন্য), যতক্ষণ না পুনরায় মডেলযুক্ত অর্থ বিতরণ "যথেষ্ট স্বাভাবিক" প্রদর্শিত না হয়। আপনি সর্বদা এই সিদ্ধান্তে পৌঁছবেন যে কিছু সীমাবদ্ধ নমুনার আকার যথেষ্ট, তবে সত্যে এটি কখনই হবে না।
গ্লেন_বি -রিনস্টেট মনিকা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.