আমি পরিসংখ্যান (ফ্রিম্যান, পিসানী, পার্ভস) বইটি পড়ছি এবং আমি এমন একটি উদাহরণ পুনরুত্পাদন করার চেষ্টা করছি যেখানে একটি মুদ্রা নিক্ষেপ করা হয় যেখানে 50 বার বলা হয়, মাথার সংখ্যাটি গণনা করা হয় এবং এটি 1000 বার বলা হয় is
প্রথমত, আমি টসসের সংখ্যা (নমুনা আকার) 1000 এ রেখেছি এবং পুনরাবৃত্তিগুলি বাড়িয়েছি। যতবার পুনরাবৃত্তি হবে তত ভাল ডেটা স্বাভাবিক বক্রের সাথে ফিট করে।
এরপরে, আমি পুনরাবৃত্তির সংখ্যা 1000 এ স্থির করে চেষ্টা করেছি এবং নমুনার আকার বাড়িয়েছি। নমুনার আকারটি যত বড়, সাধারণ বাঁকানো ডেটা মাপসই সবচেয়ে খারাপ বলে মনে হচ্ছে। এটি বইয়ের উদাহরণের সাথে পরস্পরবিরোধী বলে মনে হচ্ছে যা নমুনার আকার বৃদ্ধির সাথে সাথে স্বাভাবিক বক্ররেখাকে আরও ভাল করে সন্নিবিষ্ট করে।
আমি নমুনার আকার বাড়িয়ে দিয়ে কী হবে তা দেখতে চেয়েছিলাম, তবে 10,000 সংখ্যক পুনরাবৃত্তিগুলি সংশোধন করা হয়েছে। এটিও বইটির বিরোধিতা বলে মনে হচ্ছে।
কোন ধারণা আমি কি ভুল করছি?
নীচে কোড এবং গ্রাফ।
%matplotlib inline
def plot_hist(num_repetitions, num_tosses):
tosses = np.random.randint(0, 2, size=[num_repetitions, num_tosses])
sums = np.apply_along_axis(lambda a: np.sum(a == 1), 1, tosses)
xmin, xmax = min(sums), max(sums)
lnspc = np.linspace(xmin, xmax, len(sums))
m, s = stats.norm.fit(sums) # get mean and standard deviation
pdf_g = stats.norm.pdf(lnspc, m, s) # now get theoretical values in our interval
bins = np.arange(xmin, xmax) - 0.5
step = int((xmax - xmin)/5)
fig, ax = plt.subplots()
_ = ax.hist(sums, bins, edgecolor='black', linewidth=1.2, density=True)
_ = ax.plot(lnspc, pdf_g, label="Norm", color='red')
_ = ax.set_xticks(bins[::step] + 0.5)
_ = ax.set_title('{:,} tosses - {:,} repetitions'.format(num_tosses, num_repetitions))
1. পুনরাবৃত্তির সংখ্যা বাড়ানোর সাথে পরীক্ষা করুন (1000 এর নির্দিষ্ট নমুনার আকার)
plot_hist(1000, 1000)
plot_hist(10000, 1000)
plot_hist(100000, 1000)
২. বৃদ্ধির নমুনার আকারের পরীক্ষা (1000 পুনরাবৃত্তিতে স্থির)
plot_hist(1000, 100)
plot_hist(1000, 1000)
plot_hist(1000, 10000)
৩. বৃদ্ধির নমুনার আকারের পরীক্ষা (10,000 পুনরাবৃত্তিতে স্থির)
plot_hist(10000, 100)
plot_hist(10000, 1000)
plot_hist(10000, 10000)
plot_hist(10000, 100000)