আমি কীভাবে দক্ষতার সাথে বেরনুলি এলোমেলো ভেরিয়েবলগুলির যোগফলকে মডেল করতে পারি?

38

আমি একটি দৈব চলক (মডেলিং করছি ) যা কিছু ~ 15-40k স্বাধীন বের্নুলির র্যান্ডম ভেরিয়েবল (এর সমষ্টি একটি ভিন্ন সাফল্য সম্ভাব্যতা (সঙ্গে), প্রতিটি )। সাধারণত, যেখানে এবং । $Y$ $X_i$ $p_i$ $Y=\sum X_i$ $\Pr(X_i=1)=p_i$ $\Pr(X_i=0)=1-p_i$

আমি $\Pr(Y<=k)$ (যেখানে $k$ দেওয়া হয়েছে) এর মতো প্রশ্নের উত্তর দিতে আগ্রহী ।

বর্তমানে, আমি এই জাতীয় প্রশ্নের উত্তর দিতে এলোমেলো সিমুলেশন ব্যবহার করি। আমি এলোমেলোভাবে প্রতিটি আঁকা $X_i$ তার মতে $p_i$ , তারপর সব যোগফল $X_i$ মান পেতে $Y'$ । আমি এই প্রক্রিয়াটি কয়েক হাজার বার পুনরাবৃত্তি করি এবং বারের ভগ্নাংশটি ফিরিয়ে দিই $\Pr(Y'\leq k)$ ।

স্পষ্টতই, এটি পুরোপুরি সঠিক নয় (যদিও সিমুলেশনগুলির সংখ্যা বৃদ্ধি পাওয়ার সাথে সাথে নির্ভুলতা অনেক বেড়ে যায়)। এছাড়াও, মনে হয় ব্যবহারের সিমুলেশনগুলি এড়ানোর জন্য আমার কাছে বিতরণ সম্পর্কে পর্যাপ্ত ডেটা রয়েছে। সঠিক সম্ভাবনা পাওয়ার কোনও যুক্তিযুক্ত উপায় আপনি কী ভাবতে পারেন $\Pr(Y\leq k)$ ?

PS

আমি পার্ল এবং আর ব্যবহার করি

সম্পাদনা

প্রতিক্রিয়া অনুসরণ করে আমি ভেবেছিলাম কিছু স্পষ্টির প্রয়োজন হতে পারে। আমি শীঘ্রই আমার সমস্যার সেটিং বর্ণনা করব। প্রদত্ত হল পরিধি সহ একটি বিজ্ঞপ্তি জিনোম এবং এতে ম্যাপযুক্ত রেঞ্জের cএকটি সেট n। উদাহরণস্বরূপ, c=3*10^9এবং ranges={[100,200],[50,1000],[3*10^9-1,1000],...}। নোট করুন যে সমস্ত সীমা বন্ধ রয়েছে (উভয় প্রান্তটি অন্তর্ভুক্ত)) এছাড়াও মনে রাখবেন যে আমরা কেবল পূর্ণসংখ্যার (পুরো ইউনিট) ডিল করি।

আমি প্রদত্ত nম্যাপযুক্ত রেঞ্জগুলির দ্বারা আচ্ছাদিত বৃত্তের এমন অঞ্চলগুলি সন্ধান করছি for সুতরাং xচেনাশোনাতে প্রদত্ত দৈর্ঘ্যের একটি দৈর্ঘ্যের আন্ডারকভার্ড রয়েছে কিনা তা পরীক্ষা করতে আমি অনুমানটি পরীক্ষা করে দেখি যে nরেঞ্জগুলি এলোমেলোভাবে ম্যাপ করা হয়েছে। দৈর্ঘ্য সম্ভাবনা একটি ম্যাপ পরিসীমা q>xসম্পূর্ণরূপে প্রদত্ত ব্যাপ্তির আবরণ হবে দৈর্ঘ্য xহয় (q-x)/c। cবড় এবং / বা ছোট হলে এই সম্ভাবনাটি বেশ ছোট হয়ে যায় q। কি আমি আগ্রহী (আউট রেঞ্জ সংখ্যা n) যা কভার x। এভাবেই Yগঠিত হয়।

আমি আমার নাল কল্পনা বনাম একতরফা বিকল্প (আন্ডার কভারেজ) পরীক্ষা করি। এছাড়াও নোট করুন আমি একাধিক হাইপোথিসিস (বিভিন্ন xদৈর্ঘ্য) পরীক্ষা করছি এবং এর জন্য অবশ্যই সংশোধন করা নিশ্চিত।

— ডেভিড বি
সূত্র

আপনার p_i মডেলিং অনুশীলন জুড়ে স্থির হয় বা তারা একটি গণনা থেকে অন্যটিতে পরিবর্তন করতে পারে?

— হোবার

p_iগুলি ঠিক করা হয়েছে।

— ডেভিড বি

বর্তমান প্রতিক্রিয়াগুলির আলোকে, আপনি (ক) পি এর যোগফল এবং (খ) তাদের স্কোয়ারের যোগফল ভাগ করে নিতে পারেন? এই মানগুলি আপনার বিকল্পগুলি নির্ধারণ করে।

— শুক্রবার

@ ভুবার: এগুলি কেসগুলির মধ্যে ব্যাপকভাবে পরিবর্তিত হয়। এটি আমি তৈরি করছি এমন এক-সময়ের মডিউল নয় (দুর্ভাগ্যক্রমে)।

— ডেভিড বি

@ ডেভিড তবে আপনি কি কিছু দিকনির্দেশনা দিতে পারবেন না যেমন টিপিক্যাল রেঞ্জ? উদাহরণস্বরূপ, যদি পি এর যোগফল 1 থেকে 100 এর মধ্যে থাকে যা দরকারী তথ্য এবং কিছু কার্যকর সমাধানের পরামর্শ দেয় তবে এটি যদি 10,000 পর্যন্ত পেতে পারে তবে কিছু পন্থা বাদ দিতে পারে।

— whuber

24

যদি এটি প্রায়শই কোনও পায়সনের অনুরূপ হয় , আপনি কি পইসন দ্বারা প্যারামিটার দিয়ে এটি প্রায় অনুমান করার চেষ্টা করেছেন ? $\lambda = \sum p_i$

সম্পাদনা : আমি এটিকে ন্যায্য প্রমাণ করার জন্য একটি তাত্ত্বিক ফলাফল পেয়েছি, পাশাপাশি বিতরণের জন্য একটি নাম : এটি পয়সন দ্বিপদী বিতরণ বলে । লে ক্যামের অসমতা আপনাকে জানায় যে প্যারামিটার দিয়ে পইসন বিতরণের মাধ্যমে এর বিতরণটি কতটা কাছাকাছি । এটি আপনাকে জানায় যে এই প্রায় মানের গুণমান স্টিল (1994) এর প্যারাফ্রেজ করতে এস এর স্কোয়ারের যোগফল দ্বারা পরিচালিত হয় । সুতরাং আপনার সমস্ত গুলি যদি যুক্তিসঙ্গতভাবে ছোট হয় তবে এটি এখন যেমন প্রদর্শিত হয় তবে এটি খুব ভাল অনুমান করা উচিত। $Y$ $\lambda = \sum p_i$ $p_i$ $p_i$

সম্পাদনা 2 : 'যুক্তিসঙ্গতভাবে ছোট' কতটা ছোট? ঠিক আছে, এটি আপনার নির্ভর করতে কতটা প্রয়োজন তা নির্ভর করে! লে ক্যাম এর উপপাদ্য উইকিপিডিয়ার নিবন্ধ ফলাফলের আমি উপরের উল্লেখিত সুনির্দিষ্ট ফর্ম দেয়: মধ্যে পরম পার্থক্যের সমষ্টি সম্ভাব্যতা ভর ফাংশন এর (pmf) এবং পইসন উপরে বিতরণের pmf দুইবার সমষ্টি ছাড়া আর কিছুই নয় s এর স্কোয়ারগুলির । লে ক্যামের (1960) এর অন্য ফলাফলটি ব্যবহার করা সহজ হতে পারে: এই যোগফলটি বৃহত্তম চেয়ে 18 গুণ বেশি নয় । এরকম আরও কয়েকটি ফলাফল রয়েছে ... একটি পর্যালোচনার জন্য সার্ফলিং (1978) দেখুন । $Y$ $p_i$ $p_i$

— onestop
সূত্র

1

+1 কোনও খারাপ ধারণা নয়। প্রশ্নটি কীভাবে পরিষ্কার করা হয়েছে তার উপর নির্ভর করে পইসনসের একটি ছোট মিশ্রণ একটি ভাল কাজ করবে বলে সম্ভবত।

— শুক্র

1

আমি নেতিবাচক দ্বিপদী বিতরণ সম্পর্কে পরামর্শ দিয়েছিলাম যা গামা-পোইসন মিশ্রণ হিসাবে উত্থাপিত হয়েছিল, তবে এর গড়ের চেয়ে বড় একটি ভিন্নতা রয়েছে, যদিও এই সমস্যাটির গড়ের চেয়ে ছোটতম প্রকরণ রয়েছে। এর ভিত্তিতে, আমি নিশ্চিত নই যে পোইসনগুলির কোনও মিশ্রণ কাজ করবে কিনা, অবশ্যই এই জাতীয় কোনও মিশ্রণের তারতম্যের চেয়ে বড় পরিমাণ থাকবে? ??

— onestop

@ অনস্টপ কোথায় বলা হয়েছিল যে বৈকল্পিক গড়ের চেয়ে কম? আমি উক্তিটি মিস করি।

— শুক্রবার

দুঃখিত হুবুহু, এটি কিছুটা রহস্যজনক কিন্তু এই মন্তব্যগুলি এত বিস্তৃতকরণের অনুমতি দেয় না। mpiktas এর হল বৈকল্পিক, যা গড়ের চেয়ে কম, । যদি গড়ে খুব সামান্য হয় তবে কেবল সামান্য কম , তাই স্ট্যান্ডার্ড পইসন যথেষ্ট ভাল হতে পারে। হয়তো আমার উপরে আমার উত্তরটি প্রসারিত করা উচিত .. তবে তারপরে কথোপকথন থ্রেড বিভ্রান্ত হয়।

B_{n} = \sum p_{i} (1 - p_{i})

$B_n = \sum p_i(1-p_i)$

\sum p_{i}

$\sum p_i$

p_{i}

$p_i$

— onestop

বলতে কী ? আমি কীভাবে মান পাব ?

\sum X_{i}

$\sum X_i$

X_{i}

$X_i$

— ডেভিড বি

11

এই খুব সমস্যার সমাধান খুঁজতে গিয়ে আমি আপনার প্রশ্নটি জুড়ে এসেছি। আমি এখানে উত্তরগুলির সাথে ভয়ঙ্করভাবে সন্তুষ্ট ছিলাম না, তবে আমি মনে করি একটি খুব সহজ সমাধান রয়েছে যা আপনাকে সঠিক বিতরণ দেয় এবং এটি বেশ ট্র্যাকটেবল।

দুটি বিচ্ছিন্ন এলোমেলো ভেরিয়েবলের যোগফল তাদের ঘনত্বের সমান্তরাল ities সুতরাং যদি আপনার কাছে যেখানে আপনি এবং তবে আপনি গণনা করতে পারেন: $Z = X + Y$ $P(X)$ $P(Y)$

P (Z = z) = \sum_{k = - \infty}^{\infty} P (X = k) P (Y = z - k)

$P(Z=z) = \sum_{k=-\infty}^{\infty} P(X=k) \; P(Y=z-k)$

(অবশ্যই বের্নোলির এলোমেলো ভেরিয়েবলগুলির জন্য আপনাকে যথেষ্ট অনন্তের দিকে যেতে হবে না ))

আপনি আপনার আরভি গুলির যোগফলের সঠিক বন্টন জানতে এটি ব্যবহার করতে পারেন। আরভিগুলির প্রথম দুটি যোগফল একত্রে তাদের পিডিএফগুলি (যেমন [0.3, 0.7] * [0.6, 0.4] = [0.18, 0.54, 0.28]) একত্রিত করে। তারপরে আপনার পরবর্তী বার্নুলি পিডিএফ (যেমন [0.18, 0.54, 0.28] * [0.5, 0.5] = [0.09, 0.36, 0.41, 0.14]) দিয়ে সেই নতুন বিতরণটি সমাধান করুন। সমস্ত আরভি যোগ করা না হওয়া পর্যন্ত এটি পুনরাবৃত্তি করুন e এবং ভয়েলা, ফলাফল ভেক্টর হ'ল আপনার সমস্ত ভেরিয়েবলের যোগফলের সঠিক পিডিএফ।

আমি সিমুলেশন দিয়ে যাচাই করেছি যে এটি সঠিক ফলাফল দেয়। এটি কোনও অ্যাসিম্পোটিক অনুমানের উপর নির্ভর করে না এবং এর কোনও প্রয়োজন নেই যে বার্নোল্লি প্রোবগুলি ছোট।

বারবার বোঝার চেয়ে আরও দক্ষতার সাথে এটি করার কিছু উপায়ও থাকতে পারে তবে আমি এ সম্পর্কে খুব গভীরভাবে চিন্তা করিনি। আমি আশা করি এটি কারও পক্ষে সহায়ক!

— Alex
সূত্র

2

আপনি কি 40 কে ভেরিয়েবল দিয়ে চেষ্টা করেছেন ?? (আমি ভাবছি কত ঘন্টা বা গণনার এটা লাগে দিন ...)

— whuber

5

(+1) আমি এই ধারণাটিকে কাজ করার একটি উপায় খুঁজে পেয়েছি। এর জন্য দুটি কৌশল প্রয়োজন: প্রথমত, কনভোলিউশনের জন্য এফএফটি ব্যবহার করুন; দ্বিতীয়ত, সেগুলি ক্রমিকভাবে করবেন না, তবে ভাগ করুন এবং বিজয় করুন: তাদেরকে জোড় জোড় করে করুন, তারপর জোড় জোড়ায় ফলাফল করুন etc. ইত্যাদি, অ্যালগোরিদম এখন চেয়ে স্কেল করে as জন্য সম্ভাব্যতা। উদাহরণস্বরূপ, ম্যাথামেটিকা কেবল 0.4 সেকেন্ডের মধ্যে 40,000 সম্ভাব্যতার জন্য পুরো বিতরণটি গণনা করতে পারেন । (1,000,000 10.5 সেকেন্ডে গণনা করা হয়)) আমি ফলোআপ মন্তব্যে কোড সরবরাহ করব।

O (n \log n)

$O(n\log n)$

O (n^{2})

$O(n^2)$

n

$n$

— whuber

7

এখানে গাণিতিক কোডটি রয়েছে:

multinomial[p_] := Module[{lc, condense},   lc = Function[{s}, ListConvolve[s[[1]], s[[2]], {1, -1}, 0]];   condense = Function[{s}, Map[lc, Partition[s, 2, 2, {1, 1}, {{1}}]]];   Flatten[NestWhile[condense, Transpose[{1 - p, p}], Length[#] > 1 &]]]

এটি প্রয়োগ করতে কিছু পছন্দ করুন p = RandomReal[{0, 1}, 40000]; pp = multinomial[p];। এটি সম্ভাব্যতা তৈরি করে pএবং তারপরে সঠিক বিতরণটি গণনা করে pp। এনবি যখন এর মাধ্যম pচূড়ান্ত না হয়, বিতরণটি খুব স্বাভাবিকের কাছাকাছি থাকে: এটি এখনও আরও দ্রুত অ্যালগরিদম বাড়ে।

— whuber

9

@ ইউনেস্টপ ভাল রেফারেন্স সরবরাহ করে। পোইসন দ্বিপদী বিতরণ সম্পর্কিত উইকিপিডিয়া নিবন্ধটি হুবহু সম্ভাব্যতা বন্টনের গণনার জন্য পুনরাবৃত্ত সূত্র দেয়; এটির জন্য প্রচেষ্টা দরকার। দুর্ভাগ্যক্রমে, এটি একটি বিকল্প যোগফল, সুতরাং এটি সংখ্যাগতভাবে অস্থির হবে: ভাসমান পয়েন্ট গণিতের সাথে এই গণনাটি করা আশাজনক hope সৌভাগ্যক্রমে, যখন ছোট হয়, আপনার কেবলমাত্র কয়েকটি সংখ্যক সম্ভাবনা গণনা করা দরকার, সুতরাং প্রচেষ্টাটি আনুপাতিক । যৌক্তিক গাণিতিক ( যেমন ঠিক, যাতে সংখ্যার অস্থিরতা কোনও সমস্যা না হয়) দিয়ে গণনাটি পরিচালনা করার জন্য প্রয়োজনীয় নির্ভুলতা ধীরে ধীরে যথেষ্ট বৃদ্ধি পায় যে সামগ্রিক সময়সীমা এখনও প্রায় $O(n^2)$ $p_i$ $O(n \log(\sum_i{p_i}))$ $O(n^2)$ । এটা সম্ভব!

একটি পরীক্ষা হিসেবে আমি সম্ভাব্যতার একটি অ্যারের নির্মিত বিভিন্ন মানের জন্য পর্যন্ত , যা এই সমস্যা মাপ। ছোট মানগুলির জন্য ( to অবধি ) সম্ভাবনার সঠিক গণনা করার সময়টি সেকেন্ডে ছিল এবং চতুর্ভুজভাবে ছোট করে দেওয়া হয়েছিল, তাই আমি for এর জন্য একটি উপরের তিনটি এসডি-র জন্য একটি গণনা বের করেছিলাম গড় (0, 1, ..., 22 সাফল্যের জন্য সম্ভাবনা)। পূর্বাভাসিত সময়ের সাথে মিল রেখে এটি 80 মিনিট (গণিত 8 এর সাথে) নিয়েছে। (ফলস্বরূপ সম্ভাব্যতাগুলি ভগ্নাংশ যাঁর সংখ্যা এবং ডিনোমিয়েটরের প্রায় 75,000 অঙ্ক রয়েছে!) এটি দেখায় যে গণনা করা যেতে পারে। $p_i = 1/(i+1)$ $n$ $n = 2^{16}$ $n$ $n = 2^{12}$ $n = 2^{16}$

একটি বিকল্প হ'ল দীর্ঘ সিমুলেশন চালানো (এক মিলিয়ন ট্রায়াল করা উচিত)। এটি কেবল একবারই করতে হবে, কারণ পরিবর্তন হয় না। $p_i$

— whuber
সূত্র

9

(কারণ এটি পোস্ট করা অন্যান্য সমাধানগুলির তুলনায় আমি স্বতন্ত্র, যদিও আমি পোস্ট করেছি এমন একটি সমাধান, আমি এটিকে পৃথক প্রতিক্রিয়া হিসাবে প্রস্তাব করছি)।

আপনি সেকেন্ডে (বা তার চেয়ে কম) সঠিক বিতরণ গণনা করতে পারেন তবে পি এর যোগফল ছোট হয়।

আমরা ইতিমধ্যে পরামর্শগুলি দেখেছি যে বিতরণটি প্রায় গাউসিয়ান (কিছু পরিস্থিতিতে)) বা পোইসন (অন্যান্য পরিস্থিতিতে থাকতে পারে)। যে কোনও উপায়ে, আমরা জানি যে এর অর্থ হল এবং এর এর যোগফল এর যোগফল । অতএব বন্টন তার গড় কয়েক স্ট্যান্ডার্ড ডেভিয়েশন মধ্যে ঘনীভূত হবে বলে সঙ্গে এসডিএস 4 এবং 6 বা ঐ স্থানের কাছাকাছি মধ্যে। অতএব আমরা কেবল সম্ভাব্যতা যে সমষ্টি গনা প্রয়োজন সমান (একটি পূর্ণসংখ্যা) জন্য মাধ্যমে । যখন বেশিরভাগ $\mu$ $p_i$ $\sigma^2$ $p_i(1-p_i)$ $z$ $z$ $X$ $k$ $k = \mu - z \sigma$ $k = \mu + z \sigma$ $p_i$ ছোট, প্রায় সমান (তবে এর চেয়ে কিছুটা কম) , সুতরাং রক্ষণশীল হতে আমরা ব্যবস্থায় এর জন্য গণনা করতে পারি । উদাহরণস্বরূপ, যখন এর সমষ্টি সমান এবং নির্বাচন অর্ডার ভাল মুদ্রার উলটা পিঠ আবরণ, আমরা কভার করতে গণনার প্রয়োজন হবে মধ্যে = , যা কেবল ২৮ টি মান। $\sigma^2$ $\mu$ $k$ $[\mu - z \sqrt{\mu}, \mu + z \sqrt{\mu}]$ $p_i$ $9$ $z = 6$ $k$ $[9 - 6 \sqrt{9}, 9 + 6 \sqrt{9}]$ $[0, 27]$

বিতরণ পুনরাবৃত্তি গণনা করা হয় । যাক প্রথম এর সমষ্টি বিতরণের হতে এই বের্নুলির ভেরিয়েবল। কোন থেকে মাধ্যমে , প্রথম এর সমষ্টি ভেরিয়েবল সমান করতে দুই পারস্পরিক একচেটিয়া উপায়ে: প্রথম এর সমষ্টি ভেরিয়েবল সমান এবং হয় বা অন্য প্রথম এর সমষ্টি ভেরিয়েবল সমান এবং হয় । অতএব $f_i$ $i$ $j$ $0$ $i+1$ $i+1$ $j$ $i$ $j$ $i+1^\text{st}$ $0$ $i$ $j-1$ $i+1^\text{st}$ $1$

f_{i + 1} (j) = f_{i} (j) (1 - p_{i + 1}) + f_{i} (j - 1) p_{i + 1} .

$f_{i+1}(j) = f_i(j)(1 - p_{i+1}) + f_i(j-1) p_{i+1}.$

আমাদের কেবলমাত্র এই গণনাটি থেকে ব্যবধানে অবিচ্ছেদ্য এর জন্য $j$ $\max(0, \mu - z \sqrt{\mu})$ $\mu + z \sqrt{\mu}.$

যখন বেশিরভাগ ক্ষুদ্র হয় (তবে এখনও যুক্তিসঙ্গত নির্ভুলতার সাথে থেকে পৃথক ) তবে এই পদ্ধতির আমি পূর্বে পোস্ট করা সমাধানটিতে ব্যবহৃত ভাসমান পয়েন্ট রাউন্ডঅফ ত্রুটির বিশাল সংশ্লেষের সাথে জর্জরিত নয়। অতএব, প্রসারিত-নির্ভুলতা গণনার প্রয়োজন হয় না। উদাহরণস্বরূপ, সম্ভাব্য অ্যারের জন্য একটি ডাবল-স্পষ্টতা গণনা ( , থেকে মধ্যে অঙ্কের সম্ভাবনার জন্য গণনা প্রয়োজন $p_i$ $1 - p_i$ $1$ $2^{16}$ $p_i = 1/(i+1)$ $\mu = 10.6676$ $0$ $31$ ) এক্সেল 2002 এর সাথে ম্যাথমেটিকা 8 এবং 1-2 সেকেন্ডের সাথে 0.1 সেকেন্ড নিয়েছিল (উভয়ই একই উত্তর পেয়েছে)। (ম্যাথামেটিকাল মধ্যে) চতুর্গুণ স্পষ্টতা সঙ্গে এটি পুনরায় 2 সেকেন্ডের সম্পর্কে লেগেছিল তবে বেশি করে যে কোনো উত্তর পরিবর্তন না করে । উপরের লেজের মধ্যে এসডিগুলিতে বিতরণ বন্ধ করে মোট সম্ভাবনার মাত্র only হারিয়েছে । $3 \times 10^{-15}$ $z = 6$ $3.6 \times 10^{-8}$

0 এবং 0.001 ( ) এর মধ্যে 40,000 ডাবল স্পষ্টতা র‌্যান্ডম মানগুলির অ্যারের জন্য অন্য গণনা গণিতের সাথে 0.08 সেকেন্ড সময় নিয়েছিল। $\mu = 19.9093$

এই অ্যালগরিদম সমান্তরাল। কেবলমাত্র র সেটটি প্রায় সমান আকারের বিচ্ছিন্ন সাবসেটগুলিতে বিভক্ত করুন, প্রতিটি প্রসেসরের জন্য একটি। প্রতিটি সাবসেটের জন্য বিতরণ গণনা করুন, তারপরে পুরো উত্তরটি পেতে ফলাফলগুলি সমাধান করুন (যদি আপনি চান এফএফটি ব্যবহার করে, যদিও এই স্পিডআপটি সম্ভবত অপ্রয়োজনীয়)। বড় হয়ে গেলেও, এটি আপনাকে ব্যবহারিকভাবে ব্যবহারিক করে তোলে , যখন আপনাকে লেজগুলি ( লার্জ) থেকে আরও দূরে সন্ধান করা প্রয়োজন , এবং / অথবা বড় হয়। $p_i$ $\mu$ $z$ $n$

প্রসেসরের সাথে ভেরিয়েবলগুলির একটি অ্যারের সময় । গণিতের গতি প্রতি সেকেন্ডে এক মিলিয়ন অর্ডার হয়। উদাহরণস্বরূপ, প্রসেসরের সাথে, তারতম্য, মোট সম্ভাব্যতা এবং স্ট্যান্ডার্ড বিচ্যুতির উপরের লেজের মধ্যে যেতে হবে, মিলিয়ন: কম্পিউটিং সময় কয়েক সেকেন্ড চিত্র। আপনি যদি এটি সংকলন করেন তবে আপনি পারফরম্যান্সটির দুটি আদেশের ক্রমকে গতি বাড়িয়ে তুলতে পারেন। $n$ $m$ $O(n(\mu + z \sqrt{\mu})/m)$ $m = 1$ $n = 20000$ $\mu = 100$ $z = 6$ $n(\mu + z \sqrt{\mu})/m = 3.2$

ঘটনাচক্রে, এই পরীক্ষাগুলির ক্ষেত্রে, বিতরণের গ্রাফগুলি স্পষ্টত কিছু ইতিবাচক ত্রুটি দেখিয়েছিল: এগুলি স্বাভাবিক নয়।

রেকর্ডের জন্য, এখানে একটি গাণিতিক সমাধান:

pb[p_, z_] := Module[
  {\[Mu] = Total[p]},
  Fold[#1 - #2 Differences[Prepend[#1, 0]] &, 
   Prepend[ConstantArray[0, Ceiling[\[Mu] + Sqrt[\[Mu]] z]], 1], p]
  ]

( এনবি এই সাইটের দ্বারা প্রয়োগ করা রঙ কোডিং ম্যাথমেটিক কোডের জন্য অর্থহীন particular বিশেষত ধূসর জিনিস কোনও মন্তব্য নয় : এখানেই সমস্ত কাজ শেষ হয়েছে!)

এর ব্যবহারের একটি উদাহরণ

pb[RandomReal[{0, 0.001}, 40000], 8]

সম্পাদন করা

এই পরীক্ষার ক্ষেত্রে ম্যাথমেটিকেরR চেয়ে একটি সমাধান দশগুণ ধীর - সম্ভবত আমি এটিকে সর্বোত্তমভাবে কোড করি নি - তবে এটি দ্রুত কার্যকর হয় (প্রায় এক সেকেন্ড):

pb <- function(p, z) {
  mu <- sum(p)
  x <- c(1, rep(0, ceiling(mu + sqrt(mu) * z)))
  f <- function(v) {x <<- x - v * diff(c(0, x));}
  sapply(p, f); x  
}
y <- pb(runif(40000, 0, 0.001), 8)
plot(y)

পিডিএফ প্লট

— whuber
সূত্র

8

বিভিন্ন আপনার সেরা আমার কাছে স্বাভাবিক আনুমানিক বলে মনে হয়। যাক । তারপর $p_i$ $B_n=\sum_{i=1}^np_i(1-p_i)$

\begin{aligned} B_{n}^{- 1 / 2} (\sum_{i = 1}^{n} X_{i} - \sum_{i = 1}^{n} p_{i}) \to N (0, 1), \end{aligned}

$\begin{align*} B_n^{-1/2}\left(\sum_{i=1}^nX_i-\sum_{i=1}^np_i\right)\to N(0,1), \end{align*}$ হিসাবে , প্রতিটি provided

n \to \infty

$n\to\infty$

ε > 0

$\varepsilon>0$

\begin{aligned} B_{n}^{- 1} \sum_{i = 1}^{n} E ((X_{i} - p_{i})^{2} 1 {| X_{i} - p_{i} | > ε B_{n}^{1 / 2}}) \to 0, \end{aligned}

$\begin{align*} B_n^{-1}\sum_{i=1}^nE\left((X_i-p_i)^2\mathbf{1}\{|X_i-p_i|>\varepsilon B_n^{1/2}\}\right)\to 0, \end{align*}$ কে হিসাবে চিহ্নিত করুন , যা ভেরিয়েবলগুলি ধারণ করবে । এটি তথাকথিত লিন্ডবার্গ শর্ত, যা মানকে স্বাভাবিক রূপান্তরিত করার জন্য পর্যাপ্ত এবং প্রয়োজনীয়।

n \to \infty

$n\to\infty$

B_{n} \to \infty

$B_n\to\infty$

আপডেট: আনুমানিক ত্রুটি নিম্নলিখিত অসমতা থেকে গণনা করা যেতে পারে:

\begin{aligned} sup_{x} | F_{n} (x) - Φ (x) | \leq A L_{n}, \end{aligned}

$\begin{align*} \sup_x|F_n(x)-\Phi(x)|\le AL_n, \end{align*}$ যেখানে এবং এর ছোটো এবং কেন্দ্রিক সমষ্টি সিডিএফ হয় ।

\begin{aligned} L_{n} = B_{n}^{- 3 / 2} \sum_{i = 1}^{n} E | X_{i} - p_{i} |^{3} \end{aligned}

$\begin{align*} L_n=B_n^{-3/2}\sum_{i=1}^nE|X_i-p_i|^3 \end{align*}$

F_{n}

$F_n$

X_{i}

$X_i$

যেহেতু হুবুহু জানিয়েছে, খারাপ আচরণ করা জন্য এই রূপান্তরটি ধীর হতে পারে । জন্য আমরা আছে এবং । তারপরে taking নেওয়ার পরে আমরা পাই যে মানক সাধারণ সিডিএফ থেকে সর্বাধিক বিচ্যুতি হ'ল একটি তীব্র 0.3। $p_i$ $p_i=\frac{1}{1+i}$ $B_n\approx \ln n$ $L_n\approx (\ln n)^{-1/2}$ $n=2^{16}$

— mpiktas
সূত্র

3

পি_আই যখন শূন্যের দিকে এগিয়ে যায় তখন এটি সত্য হয় না। অন্যথায়, আপনি কেবল প্রমাণ করেছেন যে পোইসন বিতরণটি সাধারণ!

— whuber

1

এজন্য এটি অবশ্যই হতে হবে । তাহলে তুলনায় দ্রুততর হারে শূন্য কাছে , ।

B_{n} \to \infty

$B_n\to\infty$

p_{i}

$p_i$

1 / i

$1/i$

lim B_{n} < \infty

$\lim B_n<\infty$

— এমপিটিকাস

@ এমপিটাস ঠিক আছে। পোইসন বিতরণের উপমাটি এখানে পুরোপুরি ফিট করে না।

যাইহোক, আমি দ্বিতীয় অনুচ্ছেদে প্রকৃতপক্ষে সেই ভয়ানক অবস্থাটি চেক করিনি।

@G। জে কার্নস আমি সম্মত হই যে পোইসনের সাথে সাদৃশ্যটি অসম্পূর্ণ, তবে আমি মনে করি এটি ভাল দিকনির্দেশনা দেয়। পি এর এক অনুক্রমের কল্পনা করুন, পি_আই = 10 ^ {- জে}, যেখানে j হ'ল i এর প্রস্থের ক্রম (i <= 10 এর জন্য 1 সমান, i <= 100 ইত্যাদি)) যখন এন = 10 ^ কে, পি এর সমান 10 ^ {- কে 90 এর 90% এবং তাদের যোগফল 0,9 প্রত্যাশার সাথে পোয়েসন দেখায়। অন্য 9% সমান 10 ^ {1-কে} এবং তাদের যোগফল পয়েসনকে দেখায় (একই প্রত্যাশা সহ)। সুতরাং বিতরণটি প্রায় পো পোসনের পরিবর্তনের যোগফলের মতো দেখায়। এটি স্বাভাবিকের কাছাকাছি কোথাও নেই। যেখান থেকে প্রয়োজন "ভয়ানক অবস্থা"।

— হোয়বার

4

ভাল, আপনার বিবরণ এবং মন্তব্যে আলোচনার ভিত্তিতে এটি স্পষ্ট যে এর অর্থ এবং তারতম্য । এর বিতরণের আকারটি শেষ পর্যন্ত এর আচরণের উপর নির্ভর করবে । উপযুক্ত "সুন্দর" (এই অর্থে যে তাদের মধ্যে খুব বেশি সত্যই শূন্যের কাছাকাছি নেই) এর জন্য, বিতরণ প্রায় স্বাভাবিক হবে (ডানদিকে ) থাকবে) কিন্তু শূন্য দিকে শিরোনাম শুরু বন্টন বাম স্থানান্তরিত করা হবে এবং যখন এটি বিরুদ্ধে জনতার $Y$ $\sum_i p_i$ $\sum_i p_{i}(1-p_{i})$ $Y$ $p_i$ $p_i$ $Y$ $\sum p_i$ $\sum_i p_i$ $y$ -হেতু এটি অনেক কম স্বাভাবিক এবং আরও অনেকটা পয়সন দেখা শুরু করবে, যেমন @ হুইবার এবং @ ইউনস্টপ উল্লেখ করেছেন।

আপনার মন্তব্য থেকে "বিতরণটি পোয়েসন দেখায়" আমি সন্দেহ করি যে এই উত্তরোত্তর ঘটনাটি ঘটছে, তবে বিষয়ে কিছু ধরণের ভিজ্যুয়াল প্রদর্শন বা সংক্ষিপ্ত পরিসংখ্যান ছাড়া সত্যই নিশ্চিত হওয়া যায় না । তবে খেয়াল করুন, যেমন @ হুবারের মতো, এর পর্যাপ্ত প্যাথলজিকাল আচরণের সাথে আপনি সমস্ত ধরণের ভুতুড়ে জিনিসগুলি যেমন মেশানো বিতরণ সীমাবদ্ধতার মতো ঘটতে পারেন। আমি সন্দেহ করি এটি এখানেই ঘটেছে তবে এটি আবার আপনার কী করছে তার উপর নির্ভর করে । $p$ $p$ $p$

"কীভাবে দক্ষতার সাথে মডেল করবেন" এর মূল প্রশ্ন হিসাবে, আমি আপনার জন্য একটি শ্রেণিবিন্যাসের মডেল প্রস্তাব করতে যাচ্ছিলাম তবে এর স্থির প্রতিবন্ধক হলে এটি যথাযথ নয় । সংক্ষেপে, এর একটি হিস্টোগ্রাম দেখুন এবং আপনি যা দেখেন তার উপর ভিত্তি করে প্রথম অনুমান করুন। আমি উত্তরটি @ এমপিক্টাস (এবং এক্সটেনশন @ এসএসজিলেসপি দ্বারা) সুপারিশ করবো যদি আপনার এর বাম দিকে খুব বেশি ভিড় না থাকে এবং আমি উত্তরগুলি কেবলমাত্র বাম-লির মধ্যে ভিড়তে থাকলে উত্তরটি সুপারিশ করব। $p$ $p$ $p$

যাইহোক, এই সমস্যাটি ঘিরে খেলার সময় আমি যে আর কোডটি ব্যবহার করেছি তা এখানে রয়েছে: আপনার খুব ছোট হলে কোডটি সত্যিই উপযুক্ত নয় , তবে জন্য বিভিন্ন মডেলগুলিতে প্লাগ করা সহজ হওয়া উচিত (স্পোকি- পাগলরা) চূড়ান্ত বিতরণে কী ঘটে তা দেখতে । $p$ $p$ $Y$

set.seed(1)
M <- 5000
N <- 15000
p <- rbeta(N, shape1 = 1, shape2 = 10)
Y <- replicate(M, sum(rbinom(N, size = 1, prob = p)))

এখন ফলাফল দেখুন।

hist(Y)
mean(Y)
sum(p)
var(Y)
sum(p*(1 - p))

আনন্দ কর; আমি নিশ্চিত করেছি।

আপনি কেন বলেন যে "যদি আপনার গুলি খুব ছোট হয় তবে কোডটি আসলেই উপযুক্ত নয় "? আমার কাছে ঠিকঠাক কাজ বলে মনে হচ্ছে, যেমন আকৃতি 1 = 1, শেপ 2 = 999 দিয়ে, 0.001 এর গড় ।

p

$p$

p

$p$

— onestop

উপরের লেখার (অনূর্ধ্ব) আমি যা বোঝাতে চেয়েছি তার উপরের লিখিত (1,10) নির্দিষ্ট পছন্দটি খুব কম মান দেয় না, এই বিষয়টিটিও যে স্বাভাবিক আনুমানিকতা খুব ভাল দেখায়। যদি কোনও ব্যক্তি পয়সন বাইরে আসতে চায় তবে তাদের অন্য কিছু চেষ্টা করা প্রয়োজন; মনে হচ্ছে আপনার পছন্দ (1,999) ভাল কাজ করে, হ্যাঁ? আমি thought তৈরি করার কথাও বলেছিলাম , বলুন, 0.25, কিন্তু আমি এটি চেষ্টা করি নি।

p

$p$

α < 1

$\alpha < 1$

2

আমার মনে হয় অন্যান্য উত্তর দুর্দান্ত, তবে আমি আপনার সম্ভাবনা অনুমান করার কোনও বায়েশিয়ান উপায় দেখিনি। উত্তরের একটি স্পষ্ট রূপ নেই, তবে সম্ভাব্যতাটি আর ব্যবহার করে অনুকরণ করা যেতে পারে।

চেষ্টা এখানে:

X_{i} | p_{i} \sim B e r (p_{i})

$X_i | p_i \sim Ber(p_i)$

p_{i} \sim B e t a (α, β)

$p_i \sim Beta(\alpha, \beta)$

উইকিপিডিয়া ব্যবহার করে আমরা এবং (প্যারামিটার অনুমানের বিভাগটি দেখুন) এর অনুমান পেতে পারি। $\hat{\alpha}$ $\hat{\beta}$

এখন আপনি তৈরি করতে পারেন জন্য স্বপক্ষে পদক্ষেপ, উৎপন্ন থেকে এবং তারপর উৎপন্ন থেকে । আপনি এই বার করার পরে আপনি পেতে পারেন । এটি Y এর প্রজন্মের জন্য একটি একক চক্র, এই (বৃহত) বার বার করুন এবং Ys এর জন্য হিস্টگرام হবে Y এর ঘনত্বের অনুমান be $i^{th}$ $p_i$ $Beta(\hat{\alpha},\hat{\beta})$ $X_i$ $Ber(p_i)$ $N$ $Y = \sum X_i$ $M$ $M$

P r o b [Y \leq y] = \frac{# Y \leq y}{M}

$Prob[Y \leq y] = \frac {\#Y \leq y} {M}$

এই বিশ্লেষণটি কেবল তখনই বৈধ হয় যখন স্থির হয় না। $p_i$ এখানে হয় না। তবে কারওর মতোই যদি প্রশ্ন থাকে তবে আমি এটি এখানে রেখে দেব will

— suncoolsu
সূত্র

1

কিছু বিশুদ্ধবাদীদের কাছে এটি বয়েশিয়ান নাও হতে পারে। এটি আসলে বুদ্ধিদীপ্ত বায়েশিয়ান, তবে হাইপার পূর্বের জাম্বু জাম্বুরির আশ্রয় ছাড়াই আর-তে আপনার সম্ভাবনাগুলি অনুকরণ করার একটি দ্রুত উপায়।

— সানকুলসু

1

যখন পি_আই দেওয়া হয় তখন কেন আপনার প্রিয়ার দরকার?

— শুক্রবার

@whuber। ধন্যবাদ, আপনি ঠিক বলেছেন। আমি নির্দিষ্ট অংশটি মিস করেছি missed আমি ভেবেছিলাম ডেভিড কেবল মান হিসাবে (কিউএক্স) / সি হিসাবে ব্যবহার করছেন এবং এটি স্থির নয়। আমি আমার উত্তর সম্পাদনা করব।

p_{i}

$p_i$

— সানকুলসু

@suncoolsu - দয়া করে মনে রাখবেন একটি "বেটা-Bernoulli" ডিস্ট্রিবিউশন শুধু আরেকটি Bernoulli বন্টন কিন্তু প্রতিস্থাপন হয় । এটি ase bec, । তাই মূলত উপর মিশিয়ে তুমি এখানে দ্বিপদ পড়তা আবেদন করেন ।

p_{i} \to \frac{α}{α + β}

$p_i\to\frac{\alpha}{\alpha+\beta}$

(\binom{1}{x_{i}}) \frac{B (α + x_{i}, β + 1 - x_{i})}{B (α, β)} = \frac{α^{x_{i}} β^{1 - x_{i}}}{α + β}

${1\choose x_i}\frac{B(\alpha+x_i,\beta+1-x_i)}{B(\alpha,\beta)}=\frac{\alpha^{x_i}\beta^{1-x_i}}{\alpha+\beta}$

p_{i}

$p_i$

p_{1} = p_{2} = \dots = p_{n}

$p_1=p_2=\dots=p_n$

— সম্ভাব্যতাব্লোগিক

2

অন্যান্য উত্তরে যেমন উল্লেখ করা হয়েছে, সম্ভাব্যতা বিতরণটি আপনি পয়সন বাইনোমিয়াল বিতরণ বর্ণনা করেছেন। সিডিএফ কম্পিউটিংয়ের জন্য একটি কার্যকর পদ্ধতি হিল, ইিলিতে দেওয়া হয়েছে । পয়সন দ্বিপদী বিতরণের জন্য বিতরণ ফাংশন গণনা করার সময় ।

পদ্ধতির বৈশিষ্ট্যগত বৈশিষ্ট্যটির ডিএফটি (বিচ্ছিন্ন ফুরিয়ার রূপান্তর) দক্ষতার সাথে গণনা করা।

দ্বিপদী বিতরণের বৈশিষ্ট্যযুক্ত ফাংশনটি ( ) দেওয়া হয়। $\phi(t) = \prod_j^n [(1-p_j)+p_je^{it}]$ $i=\sqrt{-1}$

অ্যালগরিদমটি হ'ল:

যাক , জন্য । $z_j(k) = 1-p_j+p_j \text{cos}(\omega k)+ i p_j \text{sin}(\omega k)$ $\omega=\frac{2\pi}{n+1}$
নির্ধারণ , নির্ধারণ । $x_k=\text{exp}\{\sum_j^n log(z_j(k))\}$ $x_0=1$
জন্য গণনা । পেতে প্রতিসাম্য । $x_k$ $k=1,\dots,[n/2]$ $\bar{x}_k=x_{n+1-k}$
ভেক্টর করার FFT প্রয়োগ । $\frac{1}{n+1}<x_0,x_1,\dots,x_n>$
সিডিএফ পেতে ফলাফলের যোগফল যোগ করুন।

আলগোরিদিমটি পুইবিন আর প্যাকেজে পাওয়া যায়।

এই সংখ্যা পুনরাবৃত্তাকার সূত্রগুলির তুলনায় অনেক ভাল ফলাফল দেয় কারণ তারা সংখ্যার স্থায়িত্বের অভাব থাকে।

— কাইলি
সূত্র

3

আমার কাছে কেবল সেই কাগজের বিমূর্তে অ্যাক্সেস রয়েছে, তবে এটি স্ট্যাটস.স্ট্যাকেক্সচেঞ্জ / প্রশ্নগুলি / ৪১৪4747/২ এ ব্যবহৃত পদ্ধতিটি প্রয়োগ করে বলে মনে হচ্ছে এবং এটি এই থ্রেডে প্রদত্ত অন্যান্য পদ্ধতির সাথে তুলনা করে কীভাবে সম্পাদন করে তা আলোচনা করে। কাগজটি কী অর্জন করেছে সে সম্পর্কে যদি আপনি আরও জানেন তবে আমরা একটি সংক্ষিপ্ত বিবরণ পড়তে পেরে খুশি হব।

— whuber

1

আমি পোইসন আনুমানিক প্রয়োগ করার পরামর্শ দেব। এটা সর্বজনবিদিত (দেখুন খ্রি বারবার, এল Holst ও এস Janson: পইসন পড়তা) যে মধ্যবর্তী মোট প্রকরণ দূরত্ব এবং একটি আরভি পরামিতি সঙ্গে পইসন বিতরণের থাকার ছোট হল: তথ্য বিচরণের ক্ষেত্রেও সীমাবদ্ধতা রয়েছে (কুলব্যাক-লেবেলারের দূরত্ব, আপনি পি। হেরেমোস দেখতে পাবেন: ইনফরমেশন ডাইভারজেনে পোইসন ডিস্ট্রিবিউশনে রূপান্তর। প্রিপ্রিন্ট নং 2, ফেব্রুয়ারি 2003, গাণিতিক বিভাগ, কোপেনহেগেন বিশ্ববিদ্যালয়। http: //www.harremoes.dk/Peter/poisprep.pdf $Y$ $Z$ $\sum_i p_i$

sup_{A} | P (Y \in A) - P (Z \in A) | \leq min {1, \frac{1}{\sum_{i} p_{i}}} \sum_{i} p_{i}^{2} .

$\sup_A |{\bf P}(Y\in A) - {\bf P}(Z\in A)| \le \min \left\{ 1, \frac{1}{\sum_i p_i} \right\} \sum_i p_i^2.$ এবং পি। হারেমোমের অন্যান্য প্রকাশনা), চি-স্কোয়ার দূরত্ব (দেখুন বোরিসভ এবং ভোরোঝেইকিন https://link.springer.com/article/10.1007%2Fs11202-008-0002-3 ) এবং অন্যান্য কিছু দূরত্ব।

আনুমানিকের নির্ভুলতার জন্য আনবাউন্ডেড ফাংশনগুলির জন্য আপনি বরিসভ এবং রুজানকিন https://projecteuclid.org/euclid.aop/1039548369 দেখতে পাবেন । তদ্ব্যতীত, সেই কাগজটিতে সম্ভাবনার জন্য একটি সাধারণ বাঁধন রয়েছে: সমস্ত , আমাদের কাছে $|{\bf E}f(Y) - {\bf E}f(Z)|$ $f$ $A$

P (Y \in A) \leq \frac{1}{(1 - max_{i} p_{i})^{2}} P (Z \in A) .

${\bf P}(Y\in A) \le \frac{1}{(1-\max_i p_i)^2} {\bf P}(Z\in A).$

— পাভেল রুজানকিন
সূত্র

1

+1 আনুমানিক সীমা সম্পর্কে দরকারী পরিমাণগত তথ্য জন্য আপনাকে ধন্যবাদ। আমাদের সাইটে আপনাকে স্বাগতম!

— হোয়বার