একই বর্গের পাঁচটি শিশুর একই নাম দেওয়া হওয়ার সম্ভাবনা


10

বাচ্চা-নামকরণ ফোরামে, সম্ভাব্য বাবা-মায়েরা তাদের ভয় ভয় জেনিফারের সর্বদা কিছুটা পুনরাবৃত্তি করে: "আমি চাই না যে আমার সন্তান তার নামের সাথে তার ক্লাসে 5 জনের একজন হোক।" কথাটি হ'ল, আর কোনও নামই এই ধরণের জনপ্রিয়তার কাছাকাছি আসে না, এমনকি জেনিফার ক্রেজের উচ্চতায়ও আপনি তাদের মধ্যে পাঁচটি কোনও ক্লাসে পাননি। নামের এই পুনরাবৃত্তির কাকতালীয় ঘটনাটির সম্ভাবনা কতটা অসম্ভব তা এই পিতামাতার জন্য আমি এক ধরণের উত্তর চাই।

সামাজিক সুরক্ষা প্রশাসনের বিস্তৃত শিশুর নাম ডেটা ( https://www.ssa.gov/oact/babynames/limits.html ) ব্যবহার করে কেউ কি আমাকে বলতে পারেন যে কীভাবে মার্কিন যুক্তরাষ্ট্রে প্রাথমিক বিদ্যালয়ের ক্লাসের পাঁচটি থাকার সম্ভাবনা বের করতে হবে? একই নামে বাচ্চারা? (সরলতার জন্য, "একই নাম" দ্বারা আমি একই বানান বোঝায় এবং "স্কুল শ্রেণি" বলতে বোঝাচ্ছি সমস্ত বাচ্চা একই বছর জন্মগ্রহণ করেছিল।) আমি কোনও শ্রেণির আকার নির্দিষ্ট করছি না, তবে অবশ্যই এটি 4 এর চেয়ে বেশি হওয়া উচিত । :-)


1
অ্যান্ড্রু গেলম্যানের ব্লগে শিশুর নামগুলি পুনরাবৃত্তি হওয়া থিম। তাঁর সাইটে আমি যে পোস্ট পেয়েছি তার কোনওটিতেই সে আপনার নির্দিষ্ট প্রশ্নটি নিয়ে আলোচনা করে না। তিনি একটি "বেবি নেম ব্লগ" এর সাথে লিঙ্ক করেছেন যেখানে উত্তর পেতে আপনার আরও ভাগ্য হতে পারে। andrewgelman.com/2005/09/07/baby_name_blog
মাইক হান্টার

আমি তোমাদের স্ট্রিং কিছু একসঙ্গে বলে সাফল্যের প্রথম শীর্ষ যেমন বিশ নাম আদমশুমারি তথ্য থেকে নিষ্কাশিত এর সম্ভাব্যতা সঙ্গে MULTINOMIAL বন্টন ব্যবহার পারে মনে এই
আন্তোনি পারেল্লদা

এসএসএ কি কোনও নাম দিয়ে জন্ম নেওয়া বাচ্চাদের সংখ্যা সম্পর্কে ডেটা সরবরাহ করে ? আমি কেবল র‌্যাঙ্কগুলি সম্পর্কিত তথ্য সন্ধান করছি যা স্পষ্টতই কিছু দরকারী তথ্য বর্জন করে।
সাইকোরাক্স মনিকাকে

6
@ আন্টনিপ্রেল্ল্ডা আমি মনে করি পরিস্থিতির বাস্তবতা আরও সূক্ষ্ম: যেহেতু মার্কিন স্কুল ব্যবস্থা আয় এবং জাতি দ্বারা অত্যন্ত বিভক্ত, তাই আমি মনে করি যে জাতীয় পরিসংখ্যান প্রকৃত শ্রেণিকক্ষের সাথে দুর্বল যোগাযোগ করবে।
সাইকোরাক্স মনিকাকে

3
যখন আমি একটি (ছোট) প্রাথমিক বিদ্যালয়ের ছাত্র ছিলাম তখন আমাদের খুব ছোট ক্লাসে তিন জন ছিল (আমার মনে হয় ছেলে এবং মেয়েরা মিলিত হয়েছিল মাত্র 14 বছর)। এক বছর আমরা উপরের বছরটির সাথে একত্রে একটি পূর্ণ আকারের ক্লাস তৈরি করেছি ... এবং একটি চতুর্থ জন পেয়েছি। এখন জন প্রশংসনীয় সাধারণ তারপর কিন্তু সব ছিল যে সাধারণ। (মূল ইস্যুর ক্ষেত্রে, তিনটি পাঁচটির মতো প্রায় বিরক্তিকর হবে)। নির্দিষ্ট নামটির বহুবার নকল হওয়ার সম্ভাবনা খুব কম হবে তবে কোনও নাম একাধিকবার প্রদর্শিত হওয়ার সুযোগটি আরও বেশি হবে।
গ্লেন_বি -রিনস্টেট মনিকা

উত্তর:


9

সমস্ত তথ্য এখানে পাওয়া যাবে । সারণীর প্রতিটি মান সেই সম্ভাবনাটি প্রতিনিধিত্ব করে যা সেই অবস্থান এবং জন্ম বছর থেকে 25-ব্যক্তির নমুনা দিয়েছে, এর মধ্যে 5 টি একটি নাম ভাগ করবে।

পদ্ধতি : আমি প্রদত্ত 25-ব্যক্তি শ্রেণিতে 5 জন লোকের নাম ভাগ করে নেওয়ার সম্ভাবনাটি খুঁজে পেতে প্রতিটি নামেই দ্বিপদী পিডিএফ ব্যবহার করেছি :

n = class size
k = 5,6,...,n 
p_i = (# of name[i]'s) / (total # of kids)

Pn(5+ kids share name)= namesk=5n(nk)pik(1pi)nk

উদাহরণস্বরূপ, যদি এখানে 4,000,000 মোট বাচ্চা এবং 21,393 এমিলির হয় তবে তার সম্ভাবনা হ'ল 25 জন শিক্ষার্থীর সাথে কোনও শ্রেণিতে 5 এমিলি রয়েছে বাইনোমিয়াল (25, 5, 0.0053) = 0.0000002। সমস্ত নামের সংমিশ্রণ একটি সঠিক উত্তর দেয় না, কারণ অন্তর্ভুক্তি / বর্জনীয় নীতিমালা অনুসারে , নামগুলি ভাগ করে নেওয়ার জন্য আমাদের 5 জনের একাধিক গোষ্ঠী থাকার সম্ভাবনার জন্য আমাদের অবশ্যই অ্যাকাউন্ট করতে হবে। তবে, যেহেতু এই সম্ভাবনাগুলি সমস্ত ব্যবহারিক উদ্দেশ্যে প্রায় শূন্য, তাই আমি এগুলিকে নগণ্য বলে ধরে নিয়েছি, এবং এইভাবে ।P(Ai)P(Ai)

আপডেট: যতগুলি লোক নির্দেশ করেছে, সময়ের সাথে সাথে এবং রাষ্ট্রগুলির মধ্যে যথেষ্ট পার্থক্য রয়েছে। সুতরাং আমি একই প্রোগ্রাম চালিয়েছি রাষ্ট্রের ভিত্তিতে এবং সময়ের সাথে সাথে ATE এখানে ফলাফল রয়েছে (দেশব্যাপী সম্ভাবনা লাল, পৃথক রাজ্যগুলি কালো):

এখানে চিত্র বর্ণনা লিখুন

মজার বিষয় হল, ভার্মন্ট (আমার হোম স্টেট) বিগত বেশ কয়েক দশক ধরে ধারাবাহিকভাবে এটি হওয়ার সবচেয়ে সম্ভবত একটি জায়গা places


3
আপনি কীভাবে এই সংখ্যাগুলি পেয়েছেন তা ব্যাখ্যা করার কোনও সুযোগ? আপনার এটিকে খুব নিঃশব্দ করার দরকার নেই - আমার কাছে গণিতে স্নাতক ডিগ্রি আছে এবং আমি জানি কোথায় স্টাফ আপ করতে হবে - তবে আমি সত্যিই সম্ভাব্যতার দিকে পরিচালিত ধরণের যুক্তিটি জানতে চাই ( দাগযুক্ত দীর্ঘশ্বাস))
জেপিমিয়াউ

1
এটি ধরে নেওয়া হয় যে নামগুলি একই সম্ভাব্যতার সাথে এলোমেলোভাবে দেওয়া হয় , যা কেবল সত্য নয় । এছাড়াও বাস্তব জীবনের অভিজ্ঞতা থেকে দেখা যায় যে বাচ্চাদের একই নাম থাকা 200 এর মধ্যে আরও 1 টির সাথে আরও অনেক ক্লাস রয়েছে!
টিম

4
আমি কিছুটা ভিন্ন ফলাফল পেয়েছি, তবে তারা কাছাকাছি। যদিও এটি আলোচনার মতো নয়, কারণ ফলাফলগুলিতে ভৌগলিক এবং অস্থায়ী পার্থক্য বিশাল। উত্তরটি ১৯১০ সাল থেকে মাত্রার দুটি আদেশ দ্বারা পরিবর্তিত হয়েছে এবং রাজ্যগুলির মধ্যে আকারের ক্রম অনুসারে পরিবর্তিত হয়। যেহেতু প্রায় কোনও প্রাথমিক বিদ্যালয়ের ক্লাস সমগ্র মার্কিন যুক্তরাষ্ট্র থেকে আঁকা হয় না, জাতীয় নাম তালিকা থেকে এলোমেলো নির্বাচনের মডেল অনুপযুক্ত।
whuber

2
(1) আপনার ডাউনলোড করা জাতীয় ফাইলের অন্যান্য বছরগুলি দেখুন। (২) একই সাইটে উপলব্ধ রাষ্ট্র ফাইলগুলি দেখুন।
whuber

2
হ্যাঁ, সময়ের সাথে সাথে সম্ভাবনার গ্রাফটি নাটকীয়: এটি ১৯৮০ সাল নাগাদ একেবারে হ্রাস পেয়েছে। তবে রাষ্ট্রের বৈচিত্রটি প্রকৃতপক্ষে খুব বড়, যেমনটি প্রত্যাশা করা যায়: নামগুলি ভৌগলিকভাবে পরিবর্তিত হয় এবং জাতিগততা, আয় এবং অন্যান্য জনসংখ্যার কারণে তারা দৃ strongly়ভাবে ক্লাস্টার করে। (রাজ্য ও সময় পরিবর্তনের বিষয়ে আপনার বিস্তৃত তদন্তের জন্য +1,
বিটিডাব্লু

0

পাইথন 2 এর জন্য নিম্নলিখিত পাইথন-স্ক্রিপ্টটি দেখুন।

উত্তর ডেভিড সি এর উত্তর দ্বারা অনুপ্রাণিত হয়।

আমার চূড়ান্ত উত্তরটি হ'ল, এক শ্রেণিতে কমপক্ষে পাঁচটি জ্যাকবকে খুঁজে পাওয়ার সম্ভাবনা, https://www.ssa.gov/oact/babynames/limits.html "জাতীয় ডেটা থেকে প্রাপ্ত তথ্য অনুসারে জ্যাকব সর্বাধিক সম্ভাব্য নাম "2006 থেকে।

সাফল্যের সম্ভাবনা হওয়ায় জ্যাকব-সম্ভাবনার দ্বিপদী বিতরণ অনুযায়ী সম্ভাবনা গণনা করা হয়।

import pandas as pd
from scipy.stats import binom

data = pd.read_csv(r"yob2006.txt", header=None, names=["Name", "Sex", "Count"])

# count of children in the dataset:
sumCount = data.Count.sum()

# do calculation for every name:
for i, row in data.iterrows():
    # relative counts of each name being interpreted as probabily of occurrence
    data.loc[i, "probability"] = data.loc[i, "Count"]/float(sumCount)

    # Probabilites being five or more children with that name in a class of size n=25,50 or 100
    data.loc[i, "atleast5_class25"] = 1 - binom.cdf(4,25,data.loc[i, "probability"])
    data.loc[i, "atleast5_class50"] = 1 - binom.cdf(4,50,data.loc[i, "probability"])
    data.loc[i, "atleast5_class100"] = 1 - binom.cdf(4,100,data.loc[i, "probability"])

maxP25 = data["atleast5_class25"].max()
maxP50 = data["atleast5_class50"].max()
maxP100 = data["atleast5_class100"].max()

print ("""Max. probability for at least five kids with same name out of 25: {:.2} for name {}"""
   .format(maxP25, data.loc[data.atleast5_class25==maxP25,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 50: {:.2} for name {}, of course."""
   .format(maxP50, data.loc[data.atleast5_class50==maxP50,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 100: {:.2} for name {}, of course."""
   .format(maxP100, data.loc[data.atleast5_class100==maxP100,"Name"].values[0]))

সর্বোচ্চ। কমপক্ষে পাঁচটি বাচ্চার সম্ভাবনা হ'ল 25: 4.7e-07 এর মধ্যে জ্যাকব নামটির জন্য একই নাম রয়েছে

সর্বোচ্চ। কমপক্ষে ৫০ টির মধ্যে কমপক্ষে পাঁচটি বাচ্চার সম্ভাবনা: জ্যাকব নামটির জন্য অবশ্যই: 1.6e-05 অবশ্যই।

সর্বোচ্চ। কমপক্ষে ১০০ জনের মধ্যে একই নামের কমপক্ষে পাঁচটি বাচ্চার সম্ভাবনা: অবশ্যই জ্যাকব নামটির জন্য, অবশ্যই।

ডেভিড সি এর হিসাবে 10 একই ফলাফলের একটি ফ্যাক্টর দ্বারা। ধন্যবাদ। (আমার উত্তরটি সমস্ত নামের সমষ্টি করে না, এটি আলোচনা করা উচিত)


এই উত্তরটি সেই সুযোগ প্রশ্নে মোকাবেলার বলে মনে হচ্ছে না কিছু নাম একটি শ্রেণীকক্ষে পাঁচটি বা তার বেশি বার প্রদর্শিত হয়।
whuber

1
@ ফেইনম্যান আমি বিশ্বাস করি যে সমস্ত নামের তুলনায় মোট যোগফল নেওয়া উপযুক্ত কারণ এক শ্রেণিতে একই নামে 5 জন ব্যক্তির দুই বা ততোধিক সেট হওয়ার সম্ভাবনা প্রায় শূন্য, এবং সমস্ত ব্যবহারিক উদ্দেশ্যে তুচ্ছ। এটি হ'ল অন্তর্ভুক্তি / বর্জনীয় নীতিমালা অনুসারে , আমরা যদি এই সম্ভাবনাটিকে উপেক্ষা করি তবে পি(একজনআমি)Σপি(একজনআমি)

2
না, আপনি ঠিক যেমনটি তৈরি করেছিলেন ঠিক তেমন প্রশ্নের উত্তর দেননি। সুযোগ যে কিছু নাম পাঁচটি বা তার বেশি বার প্রদর্শিত হবে সর্বোচ্চ সুযোগ করে একটি তুলনায় অনেক বেশী দেওয়া নাম পাঁচটি বা তার বেশি বার প্রদর্শিত হবে।
whuber

3
@ শুভর বক্তব্য হিসাবে, "5 জ্যাকবস" "কিছু নামের 5" এর চেয়ে দুর্বল যুক্তি, তবে এটি শিশুর নাম আলোচনায় কার্যকর হতে পারে: "এখানে সর্বাধিক জনপ্রিয় নামের পাঁচটি বাচ্চার সম্ভাবনা রয়েছে। আপনি না সর্বাধিক জনপ্রিয় নাম ব্যবহার করে, সুতরাং আপনার সম্ভাবনা আরও কম ""
জেপিমিয়াউ

2
এটা না ঠিক , কারণ সম্ভাবনার পারস্পরিক একচেটিয়া নয়: আপনি 5 বা তার বেশি Thomases হতে পারে এবং 5 বা তার বেশী রিচার্ডস ( এবং একটি একক বর্গ সম্ভবত এমনকি 5 বা তার বেশী Henrys)। সুতরাং এটি একটি উপরের আবদ্ধ। @ ডেভিডসি এখানে একটি মন্তব্যে যুক্তি দেখিয়েছে যে এই জাতীয় ইভেন্টগুলির সম্ভাব্যতা নগণ্য।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.