কেন আমার সিমুলেশনে কেন্দ্রীয় সীমাবদ্ধ তত্ত্বটি ভেঙে যায়?


21

ধরা যাক আমার নিম্নলিখিত নম্বর আছে:

4,3,5,6,5,3,4,2,5,4,3,6,5

আমি তাদের কয়েকটি নমুনা করেছি, তাদের মধ্যে 5 টি বলুন এবং 5 টি নমুনার যোগফল গণনা করি। তারপরে আমি বহুবার যোগফল পেতে তার পুনরাবৃত্তি করলাম এবং আমি একটি হিস্টোগ্রামে অঙ্কের মূল্য নির্ধারণ করেছি, যা কেন্দ্রীয় সীমাবদ্ধ তত্ত্বের কারণে গাউসিয়ান হবে।

কিন্তু যখন তারা সংখ্যা অনুসরণ করছে, আমি কেবলমাত্র কিছু বড় সংখ্যার সাথে 4 প্রতিস্থাপন করেছি:

4,3,5,6,5,3,10000000,2,5,4,3,6,5

এগুলি থেকে 5 টি নমুনার পরিমাণের নমুনা হিস্টোগ্রামে কখনই গাউসিয়ায় পরিণত হয় না, বরং আরও একটি বিভাজনের মতো হয়ে যায় এবং দুটি গাউসিয়ান হয়। তা কেন?


1
এটি যদি আপনি এন = 30 বা তার বেশি না বাড়িয়ে থাকেন তবে তা করবে না ... কেবল আমার সন্দেহ এবং আরও সংক্ষিপ্ত সংস্করণ / নীচে গৃহীত উত্তরের পুনরুদ্ধার।
oemb1905

@ জিমএসডি সিএলটি একটি অ্যাসিম্পটোটিক ফলাফল (যেমন স্ট্যান্ডার্ডাইজড নমুনার বন্টন সম্পর্কে বা সীমাতে পরিমাণের পরিমাণ হিসাবে নমুনার আকার অনন্তের দিকে যায়)। নয় । আপনি যে জিনিসটি দেখছেন (সীমাবদ্ধ নমুনায় স্বাভাবিকতার দিকে দৃষ্টিভঙ্গি) তা কঠোরভাবে সিএলটি-র ফলাফল নয়, তবে সম্পর্কিত ফলাফল। n n=5n
গ্লেন_বি -রিনস্টেট মনিকা

3
@ oemb1905 n = 30 অপ্রতুলতা বাছাইয়ের ধরণের সাজানোর জন্য যথেষ্ট নয়। মতো মানটির সাথে দূষিত হওয়াটি কতটা বিরল তার উপর নির্ভর করে স্বাভাবিক যুক্তিসঙ্গততার মতো দেখতে স্বাভাবিক লাগার আগে এটি n = 60 বা n = 100 বা আরও বেশি সময় নিতে পারে। দূষণ যদি প্রায় 7% হয় (যেমন প্রশ্নে) এন = 120 এখনও কিছুটা 107
সঙ্কুচিত থাকে


ভাবেন যে (1,100,000, 1,900,000) এর মত অন্তরগুলিতে মানগুলি কখনই পৌঁছাবে না। তবে আপনি যদি এই পরিমাণগুলি একটি শালীন পরিমাণের উপার্জন করেন তবে এটি কার্যকর হবে!
ডেভিড

উত্তর:


18

আসুন প্রত্যক্ষভাবে স্মরণ করি, কেন্দ্রীয় সীমাবদ্ধ তত্ত্বটি কী বলে।

যদি কে স্বতন্ত্র এবং স্বতন্ত্রভাবে বিতরণ করা হয় (ভাগ করা) মানে এবং স্ট্যান্ডার্ড বিচ্যুতি সহ র্যান্ডম ভেরিয়েবল , তবে distribution বিতরণকে একটি আদর্শ সাধারণ বিতরণ (*) এ রূপান্তর করে ।X1,X2,,XkμσX1+X2++XkkσkN(0,1)

এটি প্রায়শই "অনানুষ্ঠানিক" আকারে ব্যবহৃত হয়:

যদি কে স্বতন্ত্র এবং অভিন্নভাবে (ভাগ করা) মানে এবং স্ট্যান্ডার্ড বিচ্যুতি সহ র্যান্ডম ভেরিয়েবলগুলি বিতরণ করা হয় , তবে "বিতরণে" একটি আদর্শ সাধারণ বিতরণ রূপান্তরিত করা হয় ।X1,X2,,XkμσX1+X2++XkN(kμ,kσ)

"সীমাবদ্ধতা" বন্টন পরিবর্তনের পরে, সিএলটি গাণিতিকভাবে সেই রূপটি তৈরি করার কোনও ভাল উপায় নেই তবে এটি অনুশীলনে কার্যকর।

যখন আমাদের মতো সংখ্যার একটি স্থির তালিকা থাকে

4,3,5,6,5,3,10000000,2,5,4,3,6,5

এবং আমরা এই তালিকা থেকে এলোমেলোভাবে একটি সংখ্যা নিয়ে নমুনা নিচ্ছি, কেন্দ্রীয় সীমাবদ্ধতা উপপাদ্য প্রয়োগ করতে আমাদের নিশ্চিত হওয়া দরকার যে আমাদের নমুনা প্রকল্পটি স্বাধীনতার এই দুটি শর্তকে সন্তুষ্ট করে এবং একইভাবে বিতরণ করা হয়েছে।

  • ইচ্ছাকৃতভাবে বিতরণ করা কোনও সমস্যা নয়: তালিকার প্রতিটি নম্বরই বেছে নেওয়ার সমান সম্ভাবনা।
  • স্বতন্ত্র আরও সূক্ষ্ম, এবং আমাদের নমুনা প্রকল্পের উপর নির্ভর করে। আমরা যদি প্রতিস্থাপন ছাড়াই নমুনা নিই , তবে আমরা স্বাধীনতা লঙ্ঘন করি। প্রতিস্থাপনের সাথে নমুনা দেওয়া হলেই কেন্দ্রীয় সীমাবদ্ধ তত্ত্বটি প্রযোজ্য।

সুতরাং, আমরা যদি আপনার স্কিমে প্রতিস্থাপনের নমুনা ব্যবহার করি তবে আমাদের কেন্দ্রীয় সীমাবদ্ধ উপপাদ্য প্রয়োগ করতে সক্ষম হওয়া উচিত। একই সাথে, আপনি ঠিক বলেছেন, যদি আমাদের নমুনা আকারের আকার 5 হয় তবে আমরা যদি খুব বেশি সংখ্যক বাছাই করা হয় বা আমাদের নমুনায় নির্বাচিত না হয় তার উপর নির্ভর করে আমরা খুব আলাদা আচরণ দেখতে পাচ্ছি।

তাহলে কি ঘষা? ঠিক আছে, একটি সাধারণ বিতরণে রূপান্তরকরণের হারটি আমরা যে জনসংখ্যার থেকে নমুনা নিচ্ছি তার আকারের উপর নির্ভরশীল, বিশেষত, যদি আমাদের জনসংখ্যা খুব সঙ্কুচিত হয়, আমরা আশা করি এটি স্বাভাবিকের সাথে রূপান্তরিত হতে দীর্ঘ সময় নিতে পারে। এটি আমাদের উদাহরণে কেস, তাই আমাদের আশা করা উচিত নয় যে সাধারণ কাঠামোটি দেখানোর জন্য 5 মাপের একটি নমুনা যথেষ্ট।

তিনটি সাধারণ বিতরণ

উপরে আমি 5, 100 এবং 1000 আকারের নমুনাগুলির জন্য আপনার পরীক্ষার (প্রতিস্থাপনের নমুনা সহ) পুনরাবৃত্তি করেছি You আপনি দেখতে পাচ্ছেন যে সাধারণ কাঠামো খুব বড় নমুনাগুলির জন্য উদ্ভূত।

(*) নোট এখানে কিছু প্রযুক্তিগত শর্তাদি প্রয়োজন যেমন সীমাবদ্ধ গড় এবং বৈকল্পিক। এগুলি সহজেই তালিকার উদাহরণ থেকে আমাদের নমুনায় সত্য হওয়ার জন্য যাচাই করা হয়।


খুব দ্রুত এবং নিখুঁত উত্তরের জন্য আপনাকে ধন্যবাদ। সিএলটি, প্রতিস্থাপনের জন্য আইডিয়া বিতরণ যখন ডেটা বন্টন হয় তখন আরও নমুনার প্রয়োজন হয় ... এটি এখন খুব স্পষ্ট। আমার প্রশ্নের মূল উদ্দেশ্যটি হ'ল, যেমনটি আপনি উল্লেখ করেছেন, কেসটি যখন প্রতিস্থাপন ছাড়াই একটি বড় সংখ্যা অন্তর্ভুক্ত করা হয় এবং নমুনার সংখ্যাটি স্থির থাকে। এটি খুব আলাদাভাবে আচরণ করে, এবং সেইজন্য আমাদের "শর্তসাপেক্ষ" সিএলটি বিবেচনা করা দরকার যে মামলার একটি নমুনা নমুনাযুক্ত এবং কেস নমুনাযুক্ত নয় for আমি ভাবছি যে এর জন্য যদি কোন গবেষণা বা পূর্বের কাজ থাকে তবে .. তবে যাইহোক আপনাকে ধন্যবাদ।
জিমএসডি

যদি এখানে প্রযোজ্য জানি না, কিন্তু CLT অভিসৃতি এর উপপাদ্য দ্বারা বক্রতা নিয়ন্ত্রিত en.wikipedia.org/wiki/Berry%E2%80%93Esseen_theorem
seanv507

@ ম্যাথিউড্রুরি সিএলটি-র সংজ্ঞা দ্বারা আমি কিছুটা বিভ্রান্ত। আমি মনে করি যে the একটি সাধারণ বিতরণ নয়, এলএলএন দ্বারা স্থির হয়ে যায়। Xkk
জেটিএইচ

1
@ seanv507 স্কিউনেস না হয়ে পরম তৃতীয় মুহূর্ত; দুটিই সম্পর্কিত তবে নোট করুন যে সীমাবদ্ধ তৃতীয় মুহুর্তের সাথে প্রতিসম বন্টনের জন্য যে বেরি-এসেন hi0 নয় কারণ স্কিউনেস নয়|Fn(x)Φ(x)|ρ/σ3
Glen_b -রিনস্টেট মনিকা

1
@ গ্লেন_ বি ইয়াহ, আমি কিছুটা অনানুষ্ঠানিক হয়ে যাচ্ছিলাম (যা আমার সম্ভবত হওয়া উচিত ছিল না) তবে আমি আজ বিকেলে এটি ঠিক করতে পারি যেহেতু এটি কিছুটা বিভ্রান্তির কারণ হয়ে দাঁড়িয়েছে।
ম্যাথিউ ড্র্যারি

12

সাধারণভাবে, সিএলটি আনুমানিকতা ভাল হওয়ার জন্য প্রতিটি নমুনার আকার এরও বেশি হওয়া উচিত । থাম্বের একটি নিয়ম বা ততোধিক আকারের একটি নমুনা । তবে, আপনার প্রথম উদাহরণের জনসংখ্যার সাথে ঠিক আছে।5305

pop <- c(4, 3, 5, 6, 5, 3, 4, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 5
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

এখানে চিত্র বর্ণনা লিখুন

আপনার দ্বিতীয় উদাহরণে, জনসংখ্যা বিতরণের আকারের কারণে (একটি জিনিসের জন্য এটি খুব বেশি স্কিউড; লোক এবং গ্লেন_ বি বেলো মন্তব্যগুলি পড়ুন ), এমনকি মাপের নমুনাগুলি আপনাকে বিতরণের জন্য একটি ভাল অনুমান দেয় না নমুনা মানে সিএলটি ব্যবহার করা।30

pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 30
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

এখানে চিত্র বর্ণনা লিখুন

তবে, এই দ্বিতীয় জনসংখ্যার সাথে, বলুন, আকারের নমুনা ভাল।100

pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 100
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

এখানে চিত্র বর্ণনা লিখুন


3
সমস্যাটি যে বৈকল্পিক তা নয়। কঠোর নিয়ন্ত্রণ পাওয়ার একটি উপায় বেরি-এসিন উপপাদকের মতো তৃতীয় কেন্দ্রীয় মুহুর্তের অনুপাতটিকে স্ট্যান্ডার্ড বিচ্যুতি ঘনক্ষেত্রের সাথে ব্যবহার করে।
লোক

পারফেক্ট। যোগ করা হয়েছে। Tks।
জেন

1
একটি কোড সহ দ্রুত, চাক্ষুষ এবং নিখুঁত উত্তরের জন্য আপনাকে ধন্যবাদ। আমি খুব অবাক হয়েছি কত তাড়াতাড়ি! নমুনা দেওয়ার উপযুক্ত সংখ্যা সম্পর্কে আমি অবগত ছিলাম না। আমি সেই মামলার কথা ভাবছিলাম যেখানে স্যাম্পলিংয়ের সংখ্যাটি স্থির থাকে।
জিমএসডি

@ গাই, এর জন্য আপনাকে ধন্যবাদ। আমি "তৃতীয় কেন্দ্রীয় মুহুর্তের অনুপাতটি বেরি-এসিনের উপপাদকে ঘিরে থাকা মানক বিচ্যুতিটির অনুপাত" জানতাম না । আমি কেবলমাত্র মামলাটি মোকাবেলা করতে চাই যেখানে এক বিশাল সংখ্যক উপস্থিতি যেমন বিতরণে অন্তর্ভুক্ত থাকে। এবং আপনি যেমন উল্লেখ করেছেন তেমন বিতরণ উল্লেখ করা যেতে পারে, আমি মনে করি supp যদি আপনি এই ধরণের বিতরণের সাথে সম্পর্কিত কোনও পূর্ববর্তী কাজ জানেন তবে আমাকে জানান, আপনাকে ধন্যবাদ।
জিমএসডি

2
@ গ্যু বেরি এসিন প্রপঞ্চটি গড় সম্পর্কে প্রায় তৃতীয় পরম মুহূর্ত about সম্পর্কে তৃতীয় মুহূর্ত নয় । এটি কেবল skewness নয়, ভারী লেজগুলিতেও প্রতিক্রিয়াশীল করে তোলে। ρ=E[|Xμ|3]μ3=E[(Xμ)3]
গ্লেন_বি -রিনস্টেট মনিকা

7

আমি জটিল ব্যাবহারকারী -উত্পাদক ফাংশনগুলি ব্যবহার করে কেবল ব্যাখ্যা করতে চাই , কেন সকলেই স্কিউয়ের উপর এটিকে দোষারোপ করে।

আসুন আপনি এলোমেলো পরিবর্তনশীল লিখুন যাকে আপনি হিসাবে নমুনা দিচ্ছেন , যেখানে গড় এবং স্ট্যান্ডার্ড বিচ্যুতি তাই এর অর্থ এবং ভেরিয়েন্স । এর কুল্যান্ট-জেনারেটিং ফাংশনটি হ'ল । এখানে এর স্কু বোঝায় ; আমরা এটিকে মূল ভেরিয়েবল , যেমন, স্কিউ- এর পদে লিখতে পারি । ।μ+σZμσZ01Z12t2iγ16t3+o(t3)γ1Zκ3μ+σZγ1=σ3κ3

যদি আমরা এর বিতরণের নমুনাগুলির যোগফলকে দ্বারা ভাগ করি তবে ফলাফলটি সিজিএফএকটি সাধারন পড়তা বৃহৎ যথেষ্ট সময়ে কার্যকর হওয়ার জন্য গ্রাফ সঠিক দেখাচ্ছে করার জন্য, আমরা ভালোই বড় প্রয়োজন । এই গণনাটি অনুপ্রাণিত করে । আপনি যে দুটি নমুনা বিবেচনা করেছেন তার এর খুব আলাদা মান রয়েছে ।nZn

n(12(tn)2iγ16(tn)3)+o(t3)=12t2iγ16nt3+o(t3).
tnnγ12γ1


-1

সংক্ষিপ্ত উত্তরটি হ'ল, কেন্দ্রীয় সীমাটি উপপাদ্য প্রয়োগ করার জন্য আপনার কাছে এত বড় একটি নমুনা নেই।


1
এটি একটি বৈধ ব্যাখ্যা হতে পারে না যে পর্যবেক্ষণ থেকে সিএলটি প্রশ্নের প্রথম সেটগুলির জন্য একটি ভাল অনুমান দেয় যা স্পষ্টতই ছোট্ট ev
শুশুক

@ হুইবার: আমার মনে হয় আপনি বলছেন যে প্রথম বন্টন থেকে পাঁচটি নমুনার জন্য স্বাভাবিক বিতরণ যথেষ্ট পরিমাণে সান্নিধ্য দেয়। যেহেতু যোগফলগুলির জন্য কেবলমাত্র সীমাবদ্ধ সংখ্যার মান রয়েছে (প্রতিস্থাপন ছাড়াই ১৩ টি সম্ভাব্য মান এবং প্রতিস্থাপনের সাথে 21 টি সম্ভাব্য মান), পাঁচটির নমুনা সংখ্যার সাথে সান্নিধ্য আরও ভাল হয় না এবং প্রাথমিক আনুমানিক কারণে আরও বেশি হয় প্রাথমিক প্যাটার্ন ...
হেনরি

@ হুবুহর যেহেতু প্রথম সেটটির বিতরণটি স্কিঙ্ক বাম দেখায়, আমি আশা করব যে দ্বিতীয় সেট থেকে পাঁচটির যোগফলটি ডান স্কু হওয়ার চেয়ে কম চরম উপায়ে আমি পাঁচটির যোগফলকে স্কিউড রেখে দেব। সঙ্কোচ আরও কমানোর জন্য, আমি ভেবেছিলাম যে আপনার একটি বৃহত্তর নমুনা আকারের প্রয়োজন হবে
হেনরি

1
@ হেনরি আপনার মন্তব্যের জন্য আপনাকে ধন্যবাদ। আমি এই বিশেষ পরিস্থিতি সম্পর্কে কোনও মন্তব্য করছিলাম না, তবে কেবল এই উত্তরের যুক্তি সম্পর্কে, এই আশায় যে এটি আরও ব্যাখ্যা করা যেতে পারে।
শুশুক
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.