পুনরাবৃত্তি পর্যবেক্ষণের সংখ্যার দ্বারা নমুনাযুক্ত জনসংখ্যার আকার নির্ধারণ করুন


13

বলুন যে আমার জনসংখ্যা 50 মিলিয়ন অনন্য জিনিস রয়েছে এবং আমি 10 মিলিয়ন নমুনা নিয়েছি (প্রতিস্থাপন সহ) ... প্রথম গ্রাফটি সংযুক্ত করে আমি একই "জিনিস" কতবার নমুনা দিয়ে দেখি, যা তুলনামূলকভাবে বিরল জনসংখ্যা আমার নমুনার চেয়ে বড়।

তবে আমার জনসংখ্যা যদি কেবল ১ কোটি জিনিস হয় এবং আমি ১০ মিলিয়ন নমুনা গ্রহণ করি, যেমন দ্বিতীয় গ্রাফটি দেখায় আমি প্রায়শই একই জিনিস বারবার বারে নমুনা করব।

আমার প্রশ্নটি হল - আমার পর্যবেক্ষণের টেবিল থেকে (বারের চার্টের ডেটা) অজানা হলে মূল জনসংখ্যার আকারের অনুমান পাওয়া সম্ভব? আর এটি দুর্দান্ত হবে যদি আপনি কীভাবে আর-তে এটি যেতে চান তার একটি পয়েন্টার সরবরাহ করতে পারেন

বিকল্প পাঠ


উত্তর:


10

গরবান কেমন আছে?

সমস্যাটি হ'ল আমরা জানি না কয়টি শূন্য গণনা পালন করা হয়। আমাদের এটি অনুমান করতে হবে। এ জাতীয় পরিস্থিতিতে প্রত্যাশা-ম্যাক্সিমাইজেশন অ্যালগরিদম হিসাবে একটি সর্বোত্তম পরিসংখ্যান পদ্ধতি procedure

একটি সহজ উদাহরণ:

ধরা যাক আমরা 0.2 এর পয়সন ধ্রুবক সহ অজানা জনসংখ্যার (1,000,000) থেকে আঁকছি।

counts <- rpois(1000000, 0.2)
table(counts)

     0      1      2      3      4      5
818501 164042  16281   1111     62      3

তবে আমরা শূন্য সংখ্যা গণনা করি না। পরিবর্তে আমরা এটি পর্যবেক্ষণ:

table <- c("0"=0, table(counts)[2:6])

table

     0      1      2      3      4      5
     0 164042  16281   1111     62      3

সম্ভাব্য ফ্রিকোয়েন্সি পর্যবেক্ষণ করা হয়েছে

k <- c("0"=0, "1"=1, "2"=2, "3"=3, "4"=4, "5"=5)

পয়সন বিতরণের শুরুটি করুন - কেবল একটি অনুমান করুন (আমরা জানি এটি এখানে 0.2)।

lambda <- 1 
  1. প্রত্যাশা - পোয়েসন বিতরণ

    P_k <- lambda^k*exp(-lambda)/factorial(k)
    P_k
                  0           1           2           3           4           5
    0.367879441 0.367879441 0.183939721 0.061313240 0.015328310 0.003065662  
    n0 <- sum(table[2:6])/(1 - P_k[1]) - sum(table[2:6])
    
    
    n0
           0
    105628.2     
    table[1] <-  105628.2
    
  2. বৃহদায়ন

    lambda_MLE <- (1/sum(table))*(sum(table*k))        
    lambda_MLE        
    [1] 0.697252        
    lambda <- lambda_MLE
    
  3. দ্বিতীয় পুনরাবৃত্তি

    P_k <- lambda^k*exp(-lambda)/factorial(k)        
    n0 <- sum(table[2:6])/(1 - P_k[1]) - sum(table[2:6])       
    table[1] <-  n0 
    lambda <- (1/sum(table))*(sum(table*k))
    
    
    
     population lambda_MLE
    
    [1,] 361517.1 0.5537774

একীকরণ পর্যন্ত পুনরাবৃত্তি:

for (i in 1:200) {  
P_k <- lambda^k*exp(-lambda)/factorial(k)  
n0 <- sum(table[2:6])/(1 - P_k[1]) - sum(table[2:6])
table[1] <-  n0
lambda <- (1/sum(table))*(sum(table*k))
}
cbind( population = sum(table), lambda_MLE)
     population lambda_MLE
[1,]    1003774  0.1994473

আমাদের জনসংখ্যার প্রাক্কলন 1003774 এবং আমাদের পিসন রেটটি 0.1994473 অনুমান করা হয় - এটি নমুনাযুক্ত জনসংখ্যার আনুমানিক অনুপাত। আপনি যে সাধারণ জৈবিক সমস্যাগুলির সাথে মোকাবিলা করছেন তার মধ্যে প্রধান সমস্যাটি হ'ল অনুমান করা যায় যে পোয়েসন হারটি একটি ধ্রুবক।

দীর্ঘায়িত পোস্টের জন্য দুঃখিত - এই উইকিটি আর কোডের জন্য সত্যিই উপযুক্ত নয়।


3
আপনার কোডটি হাইলাইট করুন এবং বাইনারি সংখ্যার মতো দেখতে এমন বোতামটি ক্লিক করুন ...
শেন

8

এটি 'মার্ক অ্যান্ড রিক্যাপচার' ওরফে 'ক্যাপচার-রিপ্যাচার', বাস্তুশাস্ত্রের একটি সুপরিচিত প্রযুক্তি (এবং কিছু অন্যান্য ক্ষেত্র যেমন মহামারীবিদ্যার মতো) এর মতো শোনাচ্ছে। আমার অঞ্চল নয় তবে চিহ্ন এবং পুনর্নির্মাণ সম্পর্কিত উইকিপিডিয়া নিবন্ধটি যুক্তিসঙ্গত বলে মনে হচ্ছে, যদিও আপনার পরিস্থিতি লিংকন-পিটারসন পদ্ধতিতে ব্যাখ্যা করা হয়েছে সেখানে এটি প্রযোজ্য নয়।

আমি মনে করি শাব্বিচেফ আপনার অবস্থার জন্য একটি সঠিক ট্র্যাক, তবে দ্বিপদী আনুমানিকভাবে পোইসন বিতরণ ব্যবহার করা জিনিসগুলিকে সম্ভবত কিছুটা সহজতর করে তুলবে এবং জনসংখ্যার আকারটি যদি খুব বড় হয় তবে আপনার উদাহরণগুলির মতো খুব ভাল অনুমান করা উচিত। আমি মনে করি জনসংখ্যার আকারের সর্বাধিক সম্ভাবনার প্রাক্কলনের জন্য একটি সুস্পষ্ট অভিব্যক্তি পাওয়া তখন বেশ সহজবোধ্য হওয়া উচিত (উদাহরণস্বরূপ উইকিপিডিয়া আবার দেখুন ), যদিও এখনই বিশদটি নিয়ে কাজ করার আমার কাছে সময় নেই।


5

দ্বি দ্বি বিতরণের মাধ্যমে আপনি অনুমান করতে পারবেন। তাহলে আছে , প্রতিস্থাপিত না করে, থেকে বস্তু (সঙ্গে অজানা), একটি অবজেক্ট সম্ভাবনা একটি একক ড্র একবার টানা হচ্ছে । এটি এখন একটি মুদ্রাক্ষেত্র হিসাবে ভাবেন। সম্ভাব্যতা ঠিক মাথা (অর্থাত সদৃশ) থেকে বিচারের হয় । প্রত্যাশিত সংখ্যার পর্যবেক্ষণ (আপনার প্লট) পেতে এটিকে দিয়ে গুণ করুন। বৃহত্তর জন্য ডেটা থেকে ব্যাক আউট করা কিছুটা লোমশ হতে পারে তবে ছোটপি = 1nkk ( এন)P=1kমি এনmmn(nm)Pm(1P)nmএন কে এম ( 1 - পি ) 1nnkm, আপনি সম্ভবত পদটি সমান বলে ধরে নিখুঁত করতে পারেন ।(1P)1

সম্পাদনা করুন : সংখ্যাসূচক সমস্যাগুলি সমাধান করার একটি সম্ভাব্য উপায় হ'ল গণনার অনুপাত। মানে, যদি অঙ্কনের সম্ভাবনা নেই মাথা, তারপর সমান । তারপরে একাধিক অনুমান পেতে আপনার ডেটাতে নকলের পরিমাণের অনুপাত দেখুন , তারপরে মধ্যম বা গড় ধরুন। এম পি এম / পি এম + 1 ( কে - 1 ) মি + 1PmmPm/Pm+1 কে(k1)m+1nmk

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.