মুদ্রার নমুনার আকার বাড়ানো কেন সাধারণ বক্ররেখা অনুমানের উন্নতি করে না?


19

আমি পরিসংখ্যান (ফ্রিম্যান, পিসানী, পার্ভস) বইটি পড়ছি এবং আমি এমন একটি উদাহরণ পুনরুত্পাদন করার চেষ্টা করছি যেখানে একটি মুদ্রা নিক্ষেপ করা হয় যেখানে 50 বার বলা হয়, মাথার সংখ্যাটি গণনা করা হয় এবং এটি 1000 বার বলা হয় is

  1. প্রথমত, আমি টসসের সংখ্যা (নমুনা আকার) 1000 এ রেখেছি এবং পুনরাবৃত্তিগুলি বাড়িয়েছি। যতবার পুনরাবৃত্তি হবে তত ভাল ডেটা স্বাভাবিক বক্রের সাথে ফিট করে।

  2. এরপরে, আমি পুনরাবৃত্তির সংখ্যা 1000 এ স্থির করে চেষ্টা করেছি এবং নমুনার আকার বাড়িয়েছি। নমুনার আকারটি যত বড়, সাধারণ বাঁকানো ডেটা মাপসই সবচেয়ে খারাপ বলে মনে হচ্ছে। এটি বইয়ের উদাহরণের সাথে পরস্পরবিরোধী বলে মনে হচ্ছে যা নমুনার আকার বৃদ্ধির সাথে সাথে স্বাভাবিক বক্ররেখাকে আরও ভাল করে সন্নিবিষ্ট করে।

  3. আমি নমুনার আকার বাড়িয়ে দিয়ে কী হবে তা দেখতে চেয়েছিলাম, তবে 10,000 সংখ্যক পুনরাবৃত্তিগুলি সংশোধন করা হয়েছে। এটিও বইটির বিরোধিতা বলে মনে হচ্ছে।

কোন ধারণা আমি কি ভুল করছি?

নীচে কোড এবং গ্রাফ।

%matplotlib inline

def plot_hist(num_repetitions, num_tosses):
    tosses = np.random.randint(0, 2, size=[num_repetitions, num_tosses])
    sums = np.apply_along_axis(lambda a: np.sum(a == 1), 1, tosses)

    xmin, xmax = min(sums), max(sums)  
    lnspc = np.linspace(xmin, xmax, len(sums))

    m, s = stats.norm.fit(sums) # get mean and standard deviation  
    pdf_g = stats.norm.pdf(lnspc, m, s) # now get theoretical values in our interval  

    bins = np.arange(xmin, xmax) - 0.5
    step = int((xmax - xmin)/5)

    fig, ax = plt.subplots()
    _ = ax.hist(sums, bins, edgecolor='black', linewidth=1.2, density=True)
    _ = ax.plot(lnspc, pdf_g, label="Norm", color='red')
    _ = ax.set_xticks(bins[::step] + 0.5)
    _ = ax.set_title('{:,} tosses - {:,} repetitions'.format(num_tosses, num_repetitions))

1. পুনরাবৃত্তির সংখ্যা বাড়ানোর সাথে পরীক্ষা করুন (1000 এর নির্দিষ্ট নমুনার আকার)

plot_hist(1000, 1000)

এখানে চিত্র বর্ণনা লিখুন

plot_hist(10000, 1000)

এখানে চিত্র বর্ণনা লিখুন

plot_hist(100000, 1000)

এখানে চিত্র বর্ণনা লিখুন

২. বৃদ্ধির নমুনার আকারের পরীক্ষা (1000 পুনরাবৃত্তিতে স্থির)

plot_hist(1000, 100)

এখানে চিত্র বর্ণনা লিখুন

plot_hist(1000, 1000)

এখানে চিত্র বর্ণনা লিখুন

plot_hist(1000, 10000)

এখানে চিত্র বর্ণনা লিখুন

৩. বৃদ্ধির নমুনার আকারের পরীক্ষা (10,000 পুনরাবৃত্তিতে স্থির)

plot_hist(10000, 100)

এখানে চিত্র বর্ণনা লিখুন

plot_hist(10000, 1000)

এখানে চিত্র বর্ণনা লিখুন

plot_hist(10000, 10000)

এখানে চিত্র বর্ণনা লিখুন

plot_hist(10000, 100000)

এখানে চিত্র বর্ণনা লিখুন


9
আপনার একটি আরও ভাল হিস্টোগ্রাম প্লটার প্রয়োজন - এটি বিশেষত দরিদ্র এবং এটি শিল্পকর্ম তৈরি করছে। আরও ভাল, বিতরণগুলি কোনও হিস্টগ্রামের পরিবর্তে সম্ভাব্যতার প্লটের সাথে তুলনা করুন।
শুশুক

1
এটি জানার জন্য দরকারী এবং আমার জ্ঞানকে আজ বাড়িয়েছে। ধন্যবাদ!
ক্রিস স্নো

3
"পুনরাবৃত্তিগুলি" আপনার "নমুনা আকার", টসস নয়। টসসের সংখ্যা বৃদ্ধি কিছু আলাদা
মঙ্গলবার

1
দুঃখিত, আমি ভেবেছিলাম এবং চিন্তা করেছি এবং চিন্তা করেছি, তবে সেইটির জন্য এই শব্দটি করতে পারি না! তবে টসসের সংখ্যা নির্বিশেষে, শেষ পর্যন্ত, এটি আপনাকে 1 নম্বর দেয় (মাথার সংখ্যা)। এটি আপনাকে 1 নমুনা দেয়।
মঙ্গলবার

1
আমি একটি নতুন প্রশ্ন পোস্ট করেছি যা কেবলমাত্র পরিভাষাগুলির উপর দৃষ্টি নিবদ্ধ করে: stats.stackexchange.com/questions/389892/…
ক্রিস তুষার

উত্তর:


27

দ্বিতীয় ক্ষেত্রে, টসসের সংখ্যা বাড়িয়ে আপনি একক পরীক্ষায় পড়তে পারেন এমন বিনের সংখ্যা বাড়িয়ে তোলেন। পরীক্ষাগুলি 2 এর প্রথম ক্ষেত্রে কেবল সর্বোচ্চ 100 টি টি বিন পূরণ করা যায় তবে শেষ উদাহরণটিতে 10000 টি রয়েছে। আপনি 100 টি ফ্যাক্টর দ্বারা আপনার পরীক্ষার "রেজোলিউশন" বৃদ্ধি করেছেন (যেমন, আপনার প্রথম পরীক্ষায় একটি বিন এখন আপনার দ্বিতীয়টিতে প্রায় 100 দ্বারা উপস্থাপন করা হয়েছে)। অবশ্যই এর অর্থ হ'ল আপনার বিনগুলি পূরণের জন্য আপনার আরও একটি ফ্যাক্টর 100 টি ডেটা প্রয়োজন হবে।


আহ, বোধগম্য হয়। বিনের সংখ্যা 35 ( _ = ax.hist(sums, bins=35, edgecolor='black', linewidth=1.2, density=True)) এ সেট করে তৃতীয় পরীক্ষাটি এখন সাধারণ বক্ররেখার প্রায় কাছাকাছি।
ক্রিস তুষার

5

আপনি স্বতন্ত্র বার্নোল্লি ট্রায়াল হিসাবে স্বতন্ত্র মুদ্রা ফ্লিপের কথা ভাবতে পারেন। একটি ট্রায়াল আপনাকে যথাক্রমে মাথা / লেজ বা সাফল্য / ব্যর্থতা দেয়। যদি আপনি এই কথাটি ১০০,০০০ বার পুনরাবৃত্তি করেন, তবে মুদ্রাটি ন্যায্য হলে মাথাগুলির গড় সংখ্যা ০.৫ এর কাছাকাছি হবে।

এখন আপনি যদি পরীক্ষার সংখ্যা এক হাজারে বৃদ্ধি করেন এবং পুনরাবৃত্তিটি 1 এ রাখেন তবে আপনি 1,000 সাফল্য / ব্যর্থতার ক্রম পাবেন এবং গড়পড়তা হিসাবে 500 টি মাথা পর্যবেক্ষণের সম্ভাবনা সম্পর্কে বেশি কিছু বলতে পারবেন না যদি না আপনি পুনরাবৃত্তির সংখ্যা বৃদ্ধি করেন এই স্বাধীন ট্রায়াল প্রতিটি। পুনরাবৃত্তির সংখ্যা বাড়ার সাথে সাথে আপনি সাধারণ বন্টনের আরও ভাল এবং আরও ভাল অনুমান পাবেন।

আমার পক্ষে বিচারগুলি "টসস" বা "নমুনা আকার" হিসাবে নয় বরং পৃথক কয়েনের পরিবর্তে এবং পুনরাবৃত্তিকে এই মুদ্রার প্রতিটি ফ্লপের সংখ্যা হিসাবে বিবেচনা করা সহজ। তারপরে এটি স্বজ্ঞাতভাবে উপলব্ধিও করে যে মুদ্রার সংখ্যা বা (ট্রায়ালগুলি) বাড়িয়ে, মোট পুনরাবৃত্তির সংখ্যা (বা ফ্লিপগুলি) ধ্রুবক বজায় রেখে, সাধারণ বন্টনের সাথে ডেটাটির সান্নিধ্য আরও খারাপ হয় gets


2

আমি এখানে অন্যান্য উত্তর দুর্দান্ত বলে মনে করি, তবে এমন একটি উত্তর যুক্ত করতে চেয়েছিলাম যা অন্য কোনও পরিসংখ্যানের সরঞ্জামে প্রসারিত।

আপনি একটি বেসলাইন দিয়ে শুরু করছেন যা আপনার মনে হয় একটি সাধারণ বক্রের আনুমানিক হওয়া উচিত এবং তারপরে সেখান থেকে গিয়ে দেখতে পাবেন যে আপনি কোনও স্বাভাবিক বক্রের আরও ভালভাবে অনুমান করতে পারেন কিনা। অন্য দিকে যাওয়ার চেষ্টা করুন এবং আনুমানিক সময়ে আরও খারাপ কাজ করতে আপনি কী করতে পারেন তা দেখুন। সিমুলেশনগুলির চেষ্টা করুন যেখানে আপনার 10 টি ফ্লিপ এবং 1000 পুনরাবৃত্তি রয়েছে। সিমুলেশনের সাথে এটি তুলনা করুন যেখানে আপনার 1000 ফ্লিপ এবং 10 পুনরাবৃত্তি রয়েছে। এটি পরিষ্কার হওয়া উচিত যে আগের ক্ষেত্রে আরও ভাল আনুমানিকতা ছিল।

আমি যে এক্সটেনশনটি করতে চাই তা হ'ল আনোভা (বৈকল্পিক বিশ্লেষণ)। আপনি অনেকগুলি নতুন তথ্য বিজ্ঞানী দেখতে পান যার এই সমস্যাটি খুব কমই উপলব্ধি করে এবং তাদের অধ্যয়নটি ডিজাইন করে যাতে তাদের প্রচুর ফ্লিপ হয় তবে কয়েকটি পুনরাবৃত্তি ঘটে। তাদের কাছে প্রচুর ডেটা রয়েছে তবে এটি তাদের পছন্দের চেয়ে কম বলে। গাছের প্রতিটি পাতা পরিমাপ করার মতো, তবে কেবল দুটি গাছ রয়েছে। আমরা এই দুটি গাছে পাতাগুলি সম্পর্কে বেশ কিছুটা বলতে পারি, তবে সাধারণভাবে গাছে পাতা নয়। আপনি পাতাগুলির আরও অনেক ছোট নমুনা এবং প্রচুর গাছ পেয়ে ভাল হয়ে যেতেন।


উত্তরের জন্য ধন্যবাদ. আনোভা কীভাবে এই প্রসঙ্গে ব্যবহার করা যেতে পারে সে সম্পর্কে আপনি কী বিশদটি জানাতে সক্ষম হবেন?
ক্রিস তুষার

1
@ ক্রিসস্নো আনোভা লিনিয়ার রিগ্রেশনের একটি দৃষ্টিভঙ্গি যা বিভিন্ন গ্রুপ প্রকৃতপক্ষে ভিন্নতা (তাই নামটি) দেখে আলাদা হয় কিনা তা কেন্দ্র করে। সংযোগটি হ'ল খুব কম পুনরাবৃত্তির সাথে, আপনি প্রচুর ফ্লিপ সত্ত্বেও গ্রুপের মধ্যে পার্থক্যটি বলতে পারবেন না। সাধারণ বক্ররেখার কাছাকাছি অবস্থা খারাপ হয়ে যায় এবং প্রতিটি গোষ্ঠীর বৈকল্পিকতা এই সিদ্ধান্তে পৌঁছাতে যথেষ্ট আলাদা হয় না যে আসলে কিছু আলাদা anything
জেরেমি

1

কিছু অতিরিক্ত অন্তর্দৃষ্টি পেতে নিম্নলিখিত বিবেচনা করুন:

কল্পনা করুন আপনি কেবল একটি একক পুনরাবৃত্তি করেন।

সেক্ষেত্রে আপনি চাইলে টসসের সংখ্যা বাড়াতে পারবেন তবে এটি কোনও সাধারণ বিতরণের অনুরূপ নয়। এবং এটি অর্থবোধ করে যেহেতু আপনার হিস্টোগ্রামে কেবল একটিই শিখর থাকবে।


সাধারণ বিতরণ সম্ভাব্য বিতরণ (দ্বিপদী বিতরণের) এর একটি অনুমান।

আপনি যা করেছেন তা এই বিতরণ তৈরি করছে না। তবে পরিবর্তে, আপনি সীমাবদ্ধ (এবং ছোট) সংখ্যার সিমুলেশন ব্যবহার করে এই বিতরণটিকে প্রায় অনুমান করেছিলেন । (এবং আপনি যা আবিষ্কার করেছেন তা হিস্টোগ্রামে বিনের সংখ্যা বাড়ালে এই সন্নিকটটি আরও খারাপ হয়)


সুতরাং আপনার উভয়েরই একটি উচ্চ সংখ্যক টস এবং পুনরাবৃত্তি প্রয়োজন।

  • যখন টসসের সংখ্যা বেশি থাকে তখন দ্বিবোনিয়াল বিতরণ (একাধিক কয়েন টসেস) সাধারণ বিতরণ দ্বারা প্রায় অনুমান করা যায়।
  • যখন এই পরীক্ষাগুলির হিস্টগ্রামের তুলনায় পুনরাবৃত্তি / সিমুলেশনগুলির সংখ্যা বেশি হয় তখন দ্বিপদী বিতরণের ঘনত্বের সান্নিধ্য হয়।
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.