একই জনসংখ্যার একাধিক নমুনা থেকে ছেদ হওয়ার সম্ভাবনা


10

এখানে একটি উদাহরণ কেস:

  • আমার 10,000 জন আইটেম রয়েছে। প্রতিটি আইটেম একটি অনন্য আইডি আছে।
  • আমি এলোমেলোভাবে 100 টি আইটেম বাছাই করে আইডিগুলি রেকর্ড করি
  • আমি 100 টি আইটেম আবার জনসংখ্যার মধ্যে রেখেছি
  • আমি এলোমেলোভাবে আবার 100 আইটেম বাছাই করি, আইডিগুলি রেকর্ড করে প্রতিস্থাপন করব।
  • মোট, আমি 5 বার এই এলোমেলো নমুনা পুনরাবৃত্তি

5 টি আইটেমের সমস্ত 5 টি এলোমেলো নমুনা উপস্থিত হওয়ার সম্ভাবনা কী ?এক্স

আমি পরিসংখ্যান খুব পারদর্শী না। এটি কি জন্য সঠিক হবে ?এক্স=10

  • প্রতিটি নমুনা তৈরির জন্য, 10,000 টি থেকে 100 টি আইটেমের সংমিশ্রনের সংখ্যা হ'লআমিএনমি(10000,100)
  • 100 টি আইটেমের সমস্ত সম্ভাব্য সংমিশ্রণের মধ্যে, সমন্বয়গুলিতে 10 টি নির্দিষ্ট আইটেম থাকেআমিএনমি(9990,90)*আমিএনমি(100,10)
  • 10 টি নির্দিষ্ট আইটেম থাকার সম্ভাবনা হ'ল(আমিএনমি(9990,90)*আমিএনমি(100,10))/আমিএনমি(10000,100)
  • 5 পাওয়ার হিসাবে গণনা করা সম্ভাবনা 5 টি স্বতন্ত্র নমুনা উপস্থাপন করবে।

সুতরাং মূলত আমরা কেবল 5 টি স্বতন্ত্র হাইপারজ্যামিতিক সম্ভাবনা গণনা করছি এবং তারপরে তাদের একসাথে গুণ করব? আমার মনে হচ্ছে আমি কোথাও একটা পদক্ষেপ মিস করছি।


3
আপনি যদি কোনও কিছু পুনরায় পুনরায় করেন তবে এর অর্থ আপনি এটি দুটিবারই করেন। 5 বার কোনও কিছুর পুনরাবৃত্তি করা বোঝায় না আপনি এটি 6 বার করবেন?
গ্লেন_বি -রিনস্টেট মনিকা

উত্তর:


3

পুনরাবৃত্তিভাবে সম্ভাবনাগুলি গণনা করুন।

দিন ps(x) সম্ভবত যে সম্ভাবনা হতে x মূল্যবোধ, 0xk, সব নির্বাচিত হয় s1 স্বাধীন ড্র k জনসংখ্যার আইটেম (প্রতিস্থাপন ছাড়াই) nk>0সদস্যরা। (ধরুনn এবং k বিশ্লেষণের সময়কালের জন্য নির্দিষ্ট করা হয়েছে যাতে তাদের স্পষ্টভাবে উল্লেখ করার দরকার নেই))

দিন ps(xy) সম্ভাবনা হত্তয়া যদি ঠিক হয় y মানগুলি প্রথমটিতে নির্বাচিত হয় s1 আঁকুন, তারপর xyতাদের মধ্যে শেষ ড্রতে নির্বাচিত হয়েছে। তারপর কারণ আছে এর সাব-সেট নির্বাচন ঐ উপাদান উপাদান, এবং অবশিষ্ট সাব-সেট নির্বাচন উপাদান আলাদাভাবে আউট অন্যান্য নির্বাচন করা হয় জনসংখ্যার সদস্য,(yx)xy(nykx)kxny

ps(xy)=(yx)(nykx)(nk).

মোট সম্ভাবনার আইনটি জোর দিয়েছিল

ps(x)=y=xkps(xy)ps1(y).

জন্য এটি একটি নির্দিষ্টতা যে : এটিই শুরু বিতরণ।s=1x=k

মোট গণনার আপ মাধ্যমে পূর্ণ বন্টন প্রাপ্ত করা প্রয়োজন পুনরাবৃত্তির হয় । যুক্তিসঙ্গতভাবে কেবল দ্রুতই নয়, অ্যালগরিদমও সহজ। অযৌক্তিক প্রোগ্রামারটির জন্য অপেক্ষা করা একটি সমস্যা হ'ল এই সম্ভাবনাগুলি অত্যন্ত ছোট এবং পাতাল ভাসমান-পয়েন্ট গণনাতে পরিণত হতে পারে। নিম্নলিখিত প্রয়োগটি এর কলাম এর কলামগুলিতে এর মানগুলি গণনা করে এড়িয়ে চলে ।sO(k2s)Rlog(ps(x))1,2,,s

lp <- function(s, n, k) {
  P <- matrix(NA, nrow=k+1, ncol=s, dimnames=list(0:k, 1:s))
  P[, 1] <- c(rep(-Inf, k), 0)
  for (u in 2:s) 
    for (i in 0:k) {
      q <- P[i:k+1, u-1] + lchoose(i:k, i) + lchoose(n-(i:k), k-i) - lchoose(n, k)
      q.0 <- max(q, na.rm=TRUE)
      P[i+1, u] <- q.0 + log(sum(exp(q - q.0)))
    }
  return(P)
}
p <- function(...) zapsmall(exp(lp(...)))

প্রশ্নের উত্তর , এবং । s=5, n=10000=104k=100=102 আউটপুটটি অ্যারে হয় তবে বেশিরভাগ সংখ্যা এত ছোট হয় আমরা খুব কম ফোকাস করতে পারি । এখানে সাথে সম্পর্কিত প্রথম চারটি সারি রয়েছে :101×5xx=0,1,2,3

p(5, 1e4, 1e2)[1:4, ]

আউটপুট হয়

  1         2         3      4        5
0 0 0.3641945 0.9900484 0.9999 0.999999
1 0 0.3715891 0.0099034 0.0001 0.000001
2 0 0.1857756 0.0000481 0.0000 0.000000
3 0 0.0606681 0.0000002 0.0000 0.000000

এর মান সারি লেবেল যখন মান কলাম লেবেল। 5 কলামে এই পাঁচটি নমুনায় একটি উপাদান উপস্থিত হওয়ার সম্ভাবনা দেখায় বিয়োগফল (প্রায় এক মিলিয়নতে এক) এবং পাঁচটি নমুনায় দুটি বা আরও বেশি উপাদান উপস্থিত হওয়ার কোনও সম্ভাবনা নেই।xs

আপনি যদি এই সম্ভাবনাগুলি কতটা ছোট দেখতে চান তবে তাদের লগারিদমটি দেখুন। বেস 10 টি সুবিধাজনক এবং আমাদের অনেকগুলি অঙ্কের দরকার নেই:

u <- lp(5, 1e4, 1e2)[, 5]
signif(-u[-1] / log(10), 3)

দশমিক বিন্দুর পরে আউটপুট আমাদের জানায় যে কতগুলি শূন্য রয়েছে:

    1     2     3     4     5     6     7     8     9    10  ...   97    98    99   100 
  6.0  12.3  18.8  25.5  32.3  39.2  46.2  53.2  60.4  67.6 ... 917.0 933.0 949.0 967.0 

শীর্ষ সারিতে নম্বরগুলি এর মান । উদাহরণস্বরূপ, পাঁচটি নমুনার মধ্যে দেখানো ঠিক তিন মূল্যবোধের সুযোগ কম্পিউটিং দ্বারা পাওয়া যায় , দান এবং প্রকৃতপক্ষে এই আছে আগে শূন্য প্রথম উল্লেখযোগ্য সংখ্যা। একটি চেক হিসাবে, গত মান একটি বৃত্তাকার সংস্করণ । (যা পরবর্তী চারটি নমুনায় প্রথম নমুনা পুনরায় প্রদর্শিত হওয়ার সম্ভাবনাগুলি গণনা করে) সমানxexp(u[4])0.000000000000000000143441918967.0967.26(10000100)410967.26.


0

আমি কেবল একটি অনুরূপ সমস্যার মধ্যে দৌড়েছি এবং, যদিও এটি সঠিক সমাধান কিনা তাও আমি জানি না, এটিকে কাছে এড়িয়েছি:

আপনি 5 টি নমুনায় আইটেমের আইটেমের আইটেমগুলির উপস্থিতিতে আগ্রহী । আপনি সাদা বল এবং কালো বল সহ একটি কলুষের কথা ভাবতে পারেন ।X10010,000X10,000X100 বল বের করা হয় এবং ph আপনার সমস্ত সম্ভাবনা হ'ল Xআপনার সেটে সাদা বল যদি আপনি এই কাজ5 বার (স্বতন্ত্রভাবে), আমি এটি বহুগুণ করব: p=ph5

আমি আরও একধাপ এগিয়ে ভাবতে এবং এটি দ্বিপদী বিতরণকে গুটিয়ে রাখতে পারি: আপনার যদি একটি মুদ্রা থাকে যা সম্ভাব্যতার সাথে শীর্ষে আসে ph (আপনার সেটে সমস্ত আইটেম রয়েছে এমন সম্ভাবনা) এবং আপনি এটি টস করেন 5 বার, পাওয়ার সম্ভাবনা কি 5 মাথা? p=(55)ph5(1ph)55=ph5


0

এর সম্ভাবনা কী X সমস্ত 5 টি এলোমেলো নমুনায় উপস্থিত আইটেমের সংখ্যা?

হান্স যা বলেছে তার ভিত্তিতে আপনি সর্বদা একই পেতে চান get X 100 এবং 100- এর প্রতিটি নমুনায় আইডিX বাকি 10000- এর মধ্যে থেকে আইডিএসX। প্রদত্ত নমুনার জন্য এটি করার সম্ভাবনা হাইপারজিওট্রিক ফাংশন দ্বারা দেওয়া হয়X 10000 জনসংখ্যার সাথে 100 এর অঙ্কনে সাফল্য X সম্ভাব্য সাফল্য বলে: P=(XX)(10000X100X)(10000100)। 5 নমুনার জন্য, আপনি নিতে হবেP5

যাইহোক, আমরা অনুধাবন করি যে জেনে X আইডিগুলি ভাগ করা হয় এবং রয়েছে (10000X) সেগুলি নির্বাচন করার উপায়গুলি Xআইডি। সুতরাং আপনার চূড়ান্ত উত্তর হবে(10000X)P5


কি "x"? এই উত্তরটি বোঝা অসম্ভব, যতক্ষণ না আপনি এটি প্রকাশ না করেন ততক্ষণ এটিকে পরীক্ষা করে নিন!
হুঙ্কার

আমার মনে নেই, 3 বছর আগে যেমনটি হয়েছিল তবে সম্ভবত প্রশ্নটিতে একই এক্স?
হাও ইয়ে

ঠিক আছে. তবে আপনার সূত্রকে কী ন্যায়সঙ্গত করে? সাধারণ পরীক্ষা, যেমন কেসX=0 (যার জন্য আপনার সূত্রটি আমাদের বলে দেয় সম্ভাবনাটি 1এর মাধ্যমে অন্য যে কোনও সম্ভাবনা সম্পূর্ণভাবে বাতিল হয়ে যায়!), এটি ভুল বলে চিহ্নিত করে।
whuber
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.