নমুনাযুক্ত সদৃশ এবং অকলকের ফ্রিকোয়েন্সি থেকে জনসংখ্যার আকার নির্ধারণ করা

একটি ওয়েব পরিষেবা আছে যেখানে আমি একটি এলোমেলো আইটেম সম্পর্কে তথ্যের জন্য অনুরোধ করতে পারি। প্রতিটি অনুরোধের জন্য প্রতিটি আইটেম ফেরত পাওয়ার সমান সুযোগ রয়েছে।

আমি অনুরোধ আইটেম রাখতে এবং নকল এবং অনন্য সংখ্যা রেকর্ড করতে পারেন। আইটেমের মোট সংখ্যা অনুমান করার জন্য আমি কীভাবে এই ডেটা ব্যবহার করতে পারি?

probability population coupon-collector-problem

— hoju
সূত্র

আপনি যা অনুমান করতে চান তা কোনও নমুনার আকার নয়, তবে একটি জনসংখ্যার আকার (ওয়েব সর্পিস দ্বারা ফিরিয়ে নেওয়া অনন্য আইটেমের মোট সংখ্যা)।

— গাবার্গুলিয়া

উত্তর:

এটি মূলত কুপন সংগ্রাহকের সমস্যার বৈকল্পিক।

থাকে তাহলে মোট আইটেম এবং আপনার নেওয়া একটি নমুনা আকার প্রতিস্থাপন দিয়ে তারপর চিহ্নিত থাকার সম্ভাবনা অনন্য আইটেম যেখানে দ্বিতীয় ধরণের স্ট্র্লিং নম্বর দেয় $n$ $s$ $u$

P r (U = u | n, s) = \frac{S_{2} (s, u) n!}{(n - u)! n^{s}}

$Pr(U=u|n,s) = \frac{S_2(s,u) n! }{ (n-u)! n^s }$

S_{2} (s, u)

$S_2(s,u)$

এখন আপনার যা দরকার তা হল পূর্ব বিতরণ , বয়েস উপপাদ প্রয়োগ করুন এবং জন্য বিতরণ করুন । $Pr(N=n)$ $N$

— হেনরি
সূত্র

এটি কিছু তথ্য হারাতে পারে বলে মনে হয় কারণ এটি যে ফ্রিকোয়েন্সিগুলির সাথে আইটেমগুলি 2, 3, 4, ... বার পর্যবেক্ষণ করা হয়েছিল তার জন্য অ্যাকাউন্ট করে না ।

— শুক্র

@ হুইবার: এটি তথ্য ব্যবহার না করার জন্য উপস্থিত হতে পারে, তবে আপনি আরও তদন্ত করলে দেখতে পাবেন যে অনন্য আইটেমের সংখ্যা যথেষ্ট পরিসংখ্যান is উদাহরণস্বরূপ, যদি আপনি একটি জনসংখ্যা থেকে 4 আইটেম প্রতিস্থাপন একটি নমুনা নিতে , পেয়ে একটি আইটেম এবং অন্য 1 এর 3 সম্ভাব্যতা যে পেয়ে 2 দুটি আইটেম, প্রতিটি কোন কী তা বিবেচনা করে, তাই বিশদ ফ্রিকোয়েন্সিগুলি জানার ফলে নমুনায় দুটি অনন্য আইটেম পাওয়া গেছে কেবল তা জানার চেয়ে জনসংখ্যা সম্পর্কে কোনও দরকারী তথ্য দেয় না।

n

$n$

\frac{4}{3}

$\frac{4}{3}$

n

$n$

— হেনরি

অনন্য আইটেমের সংখ্যার পর্যাপ্ততা সম্পর্কে আকর্ষণীয় বিষয়। সুতরাং ফ্রিকোয়েন্সি অনুমানের (স্বাধীনতা এবং সমান সম্ভাবনার) তদন্তের জন্য কাজ করতে পারে তবে অন্যথায় এটি অপ্রয়োজনীয়।

— whuber

আমি ইতিমধ্যে দ্বিতীয় ধরণের স্ট্রলিং সংখ্যা এবং বায়েসিয়ান পদ্ধতিগুলির ভিত্তিতে একটি পরামর্শ দিয়েছি।

যারা স্ট্র্লিং নম্বরগুলি খুব বেশি বা বেয়েসিয়ান পদ্ধতিগুলি খুব কঠিন খুঁজে পান, তাদের জন্য একটি রাউগ্রার পদ্ধতি ব্যবহার করা যেতে পারে

E [U | n, s] = n (1 - {(1 - \frac{1}{n})}^{s})

$E[U|n,s] = n\left( 1- \left(1-\frac{1}{n}\right)^s\right)$

v a r [U | n, s] = n {(1 - \frac{1}{n})}^{s} + n^{2} (1 - \frac{1}{n}) {(1 - \frac{2}{n})}^{s} - n^{2} {(1 - \frac{1}{n})}^{2 s}

$var[U|n,s] = n\left(1-\frac{1}{n}\right)^s + n^2 \left(1-\frac{1}{n}\right)\left(1-\frac{2}{n}\right)^s - n^2\left(1-\frac{1}{n}\right)^{2s}$

এবং সাংখ্যিক পদ্ধতি ব্যবহার করে ব্যাক-গণনা করুন।

$s=300$ $U = 265$ $\hat{n} \approx 1180$

$U$ $n$

— হেনরি
সূত্র

s / n

$s/n$

n

$n$

n

$n$

s / n

$s/n$

U

$U$

1 - (1 - 1 / n)^{s} \geq (1 - f_{k} (s / n)) / f_{k} (s / n)

$1 - (1-1/n)^s \geq (1-f_k(s/n)) / f_k(s/n)$

f_{k} (x) = \sum_{i = 0}^{k} x^{i} / i!

$f_k(x) = \sum_{i=0}^k x^i/i!$

k

$k$

e^{x}

$e^x$

k = 1

$k=1$

\tilde{n} = \frac{s}{s - U} U

$\tilde{n} = \frac{s}{s-U} U$

s

$s$

\hat{n}

$\hat{n}$

আপনি ক্যাপচার-পুনরুদ্ধার পদ্ধতিটি ব্যবহার করতে পারেন , এটি Rcapture R প্যাকেজ হিসাবেও প্রয়োগ করা হয়েছে ।

এখানে একটি উদাহরণ দেওয়া আছে, যা কোডে কোড করা হয়েছে Let's আসুন ধরে নেওয়া যাক যে ওয়েব সার্ভিসে N = 1000 আইটেম রয়েছে। আমরা এন = 300 অনুরোধ করব। 1 থেকে কে পর্যন্ত উপাদানগুলির সংখ্যা নির্ধারণ করে যেখানে একটি এলোমেলো নমুনা তৈরি করুন, সেখানে কে কতগুলি বিভিন্ন আইটেম আমরা দেখেছি।

N = 1000; population = 1:N # create a population of the integers from 1 to 1000
n = 300 # number of requests
set.seed(20110406)
observation = as.numeric(factor(sample(population, size=n,
  replace=TRUE))) # a random sample from the population, renumbered
table(observation) # a table useful to see, not discussed
k = length(unique(observation)) # number of unique items seen
(t = table(table(observation)))

সিমুলেশন ফলাফল

  1   2   3 
234  27   4

সুতরাং 300 অনুরোধের মধ্যে 4 বার আইটেম দেখা হয়েছিল 3 বার, 27 বার দুটি বার দেখা হয়েছে এবং 234 টি আইটেম কেবল একবার দেখা হয়েছে।

এখন এই নমুনা থেকে এন অনুমান করুন:

require(Rcapture)
X = data.frame(t)
X[,1]=as.numeric(X[,1])
desc=descriptive(X, dfreq=TRUE, dtype="nbcap", t=300)
desc # useful to see, not discussed
plot(desc) # useful to see, not discussed
cp=closedp.0(X, dfreq=TRUE, dtype="nbcap", t=300, trace=TRUE)
cp

ফলাফল:

Number of captured units: 265 

Abundance estimations and model fits:
                  abundance       stderr      deviance   df           AIC
M0**                  265.0          0.0  2.297787e+39  298  2.297787e+39
Mh Chao              1262.7        232.5  7.840000e-01    9  5.984840e+02
Mh Poisson2**         265.0          0.0  2.977883e+38  297  2.977883e+38
Mh Darroch**          553.9         37.1  7.299900e+01  297  9.469900e+01
Mh Gamma3.5**  5644623606.6  375581044.0  5.821861e+05  297  5.822078e+05

 ** : The M0 model did not converge
 ** : The Mh Poisson2 model did not converge
 ** : The Mh Darroch model did not converge
 ** : The Mh Gamma3.5 model did not converge
Note: 9 eta parameters has been set to zero in the Mh Chao model

$\hat{N}$

সম্পাদনা: উপরের পদ্ধতির নির্ভরযোগ্যতা পরীক্ষা করতে আমি 10000 উত্পন্ন নমুনায় উপরের কোডটি চালিয়েছি। এমএইচ চাও মডেল প্রতিবার রূপান্তরিত হয়েছিল। এখানে সংক্ষিপ্তসার:

> round(quantile(Nhat, c(0, 0.025, 0.25, 0.50, 0.75, 0.975, 1)), 1)
    0%   2.5%    25%    50%    75%  97.5%   100% 
 657.2  794.6  941.1 1034.0 1144.8 1445.2 2162.0 
> mean(Nhat)
[1] 1055.855
> sd(Nhat)
[1] 166.8352

— GaBorgulya
সূত্র

দেখে মনে হচ্ছে ক্যাপচার-রিপ্যাচার মডেলগুলি ব্যবহারের জন্য কিছুটা ন্যায়সঙ্গততা প্রয়োজন, কারণ এটি কোনও স্ট্যান্ডার্ড ক্যাপচার-পুনর্বার পরীক্ষা নয়। (সম্ভবত এটি 300 ক্যাপচার ঘটনা হিসেবে দেখা যেতে পারে, কিন্তু closedp থেকে কল যে ইঙ্গিত বলে মনে হচ্ছে না।)

— whuber

@ হ্যাঁ হ্যাঁ, উদাহরণটি আমি 300 টি ক্যাপচার ইভেন্ট হিসাবে দেখেছি। আপনি কীভাবে বোঝাতে চাইছেন যে "ক্লোজডের কাছে কলটি ইঙ্গিত দেয় না"? আমি (গঠনমূলক) সমালোচনার প্রশংসা করি এবং আমার উত্তরটি ভুল হিসাবে প্রমাণিত হলে আমি সংশোধন (বা প্রয়োজনে মুছে ফেলতে) খুশি।

— গাবার্গুলিয়া

এটি একটি যুক্তিসঙ্গত পদ্ধতির বলে মনে হচ্ছে। তবে আমি আর ব্যবহার করব না এর পেছনের গণিতগুলি বুঝতে হবে। উইকি পৃষ্ঠাতে একটি 2 ইভেন্টের পরিস্থিতি রয়েছে - আমি কীভাবে এটি এই ক্ষেত্রে প্রয়োগ করব?

— হুজু

@ জিএ আমি দেখছি: আপনি ডেটার জন্য একটি 300 x 300 ম্যাট্রিক্স তৈরি করেছেন! এই কোডটির অদক্ষতা আমাকে বোকা বানিয়েছে: এটি ব্যবহার করা সহজ এবং আরও প্রত্যক্ষ হবে `ক্লোজড ০.০ (Y, dfreq = সত্য, dtype =" nbcap ", t = 300) 'যেখানে Y হ'ল ফ্রিকোয়েন্সি ম্যাট্রিক্স {{1,234}, 27 2,27}, {3,4}} (যা আপনি দুবার গণনা করেছেন এবং বাস্তবে প্রদর্শিত হয়েছে!)। মূল বিষয় হল, রূপান্তর ব্যর্থতা উদ্বেগজনক, বোঝা যাচ্ছে অন্তর্নিহিত কোড বা মডেলগুলির সাথে সমস্যা আছে are ( "এম 0" এর জন্য দস্তাবেজের একটি বিস্তৃত অনুসন্ধান এই পদ্ধতির জন্য কোনও রেফারেন্স বা বিবরণ দেয় না ...)

— শুক্র

@ যাহোক আমি আপনার পরামর্শ অনুসারে কোডটি সরলীকরণ করেছি (dfreq = সত্য, dtype = "nbcap", t = 300)। আবার ধন্যবাদ.

— গাবার্গুলিয়া