আমি কীভাবে দক্ষতার সাথে বেরনুলি এলোমেলো ভেরিয়েবলগুলির যোগফলকে মডেল করতে পারি?


38

আমি একটি দৈব চলক (মডেলিং করছি ) যা কিছু ~ 15-40k স্বাধীন বের্নুলির র্যান্ডম ভেরিয়েবল (এর সমষ্টি একটি ভিন্ন সাফল্য সম্ভাব্যতা (সঙ্গে), প্রতিটি )। সাধারণত, যেখানে এবং \ জন (এক্স_আই = 0) = 1-পি_আইYXipiY=XiPr(Xi=1)=piPr(Xi=0)=1pi

আমি Pr(Y<=k) (যেখানে k দেওয়া হয়েছে) এর মতো প্রশ্নের উত্তর দিতে আগ্রহী ।

বর্তমানে, আমি এই জাতীয় প্রশ্নের উত্তর দিতে এলোমেলো সিমুলেশন ব্যবহার করি। আমি এলোমেলোভাবে প্রতিটি আঁকা Xi তার মতে pi , তারপর সব যোগফল Xi মান পেতে Y । আমি এই প্রক্রিয়াটি কয়েক হাজার বার পুনরাবৃত্তি করি এবং বারের ভগ্নাংশটি \ জন (ওয়াই '\ লেক কে) ফিরিয়ে দিই Pr(Yk)

স্পষ্টতই, এটি পুরোপুরি সঠিক নয় (যদিও সিমুলেশনগুলির সংখ্যা বৃদ্ধি পাওয়ার সাথে সাথে নির্ভুলতা অনেক বেড়ে যায়)। এছাড়াও, মনে হয় ব্যবহারের সিমুলেশনগুলি এড়ানোর জন্য আমার কাছে বিতরণ সম্পর্কে পর্যাপ্ত ডেটা রয়েছে। সঠিক সম্ভাবনা \ জনসংযোগ (ওয়াই লেক কে) পাওয়ার কোনও যুক্তিযুক্ত উপায় আপনি কী ভাবতে পারেন Pr(Yk)?

PS

আমি পার্ল এবং আর ব্যবহার করি

সম্পাদনা

প্রতিক্রিয়া অনুসরণ করে আমি ভেবেছিলাম কিছু স্পষ্টির প্রয়োজন হতে পারে। আমি শীঘ্রই আমার সমস্যার সেটিং বর্ণনা করব। প্রদত্ত হল পরিধি সহ একটি বিজ্ঞপ্তি জিনোম এবং এতে ম্যাপযুক্ত রেঞ্জের cএকটি সেট n। উদাহরণস্বরূপ, c=3*10^9এবং ranges={[100,200],[50,1000],[3*10^9-1,1000],...}। নোট করুন যে সমস্ত সীমা বন্ধ রয়েছে (উভয় প্রান্তটি অন্তর্ভুক্ত)) এছাড়াও মনে রাখবেন যে আমরা কেবল পূর্ণসংখ্যার (পুরো ইউনিট) ডিল করি।

আমি প্রদত্ত nম্যাপযুক্ত রেঞ্জগুলির দ্বারা আচ্ছাদিত বৃত্তের এমন অঞ্চলগুলি সন্ধান করছি for সুতরাং xচেনাশোনাতে প্রদত্ত দৈর্ঘ্যের একটি দৈর্ঘ্যের আন্ডারকভার্ড রয়েছে কিনা তা পরীক্ষা করতে আমি অনুমানটি পরীক্ষা করে দেখি যে nরেঞ্জগুলি এলোমেলোভাবে ম্যাপ করা হয়েছে। দৈর্ঘ্য সম্ভাবনা একটি ম্যাপ পরিসীমা q>xসম্পূর্ণরূপে প্রদত্ত ব্যাপ্তির আবরণ হবে দৈর্ঘ্য xহয় (q-x)/ccবড় এবং / বা ছোট হলে এই সম্ভাবনাটি বেশ ছোট হয়ে যায় q। কি আমি আগ্রহী (আউট রেঞ্জ সংখ্যা n) যা কভার x। এভাবেই Yগঠিত হয়।

আমি আমার নাল কল্পনা বনাম একতরফা বিকল্প (আন্ডার কভারেজ) পরীক্ষা করি। এছাড়াও নোট করুন আমি একাধিক হাইপোথিসিস (বিভিন্ন xদৈর্ঘ্য) পরীক্ষা করছি এবং এর জন্য অবশ্যই সংশোধন করা নিশ্চিত।


আপনার p_i মডেলিং অনুশীলন জুড়ে স্থির হয় বা তারা একটি গণনা থেকে অন্যটিতে পরিবর্তন করতে পারে?
হোবার

p_iগুলি ঠিক করা হয়েছে।
ডেভিড বি

বর্তমান প্রতিক্রিয়াগুলির আলোকে, আপনি (ক) পি এর যোগফল এবং (খ) তাদের স্কোয়ারের যোগফল ভাগ করে নিতে পারেন? এই মানগুলি আপনার বিকল্পগুলি নির্ধারণ করে।
শুক্রবার

@ ভুবার: এগুলি কেসগুলির মধ্যে ব্যাপকভাবে পরিবর্তিত হয়। এটি আমি তৈরি করছি এমন এক-সময়ের মডিউল নয় (দুর্ভাগ্যক্রমে)।
ডেভিড বি

@ ডেভিড তবে আপনি কি কিছু দিকনির্দেশনা দিতে পারবেন না যেমন টিপিক্যাল রেঞ্জ? উদাহরণস্বরূপ, যদি পি এর যোগফল 1 থেকে 100 এর মধ্যে থাকে যা দরকারী তথ্য এবং কিছু কার্যকর সমাধানের পরামর্শ দেয় তবে এটি যদি 10,000 পর্যন্ত পেতে পারে তবে কিছু পন্থা বাদ দিতে পারে।
whuber

উত্তর:


24

যদি এটি প্রায়শই কোনও পায়সনের অনুরূপ হয় , আপনি কি পইসন দ্বারা প্যারামিটার দিয়ে এটি প্রায় অনুমান করার চেষ্টা করেছেন ?λ=pi

সম্পাদনা : আমি এটিকে ন্যায্য প্রমাণ করার জন্য একটি তাত্ত্বিক ফলাফল পেয়েছি, পাশাপাশি বিতরণের জন্য একটি নাম : এটি পয়সন দ্বিপদী বিতরণ বলেলে ক্যামের অসমতা আপনাকে জানায় যে প্যারামিটার দিয়ে পইসন বিতরণের মাধ্যমে এর বিতরণটি কতটা কাছাকাছি । এটি আপনাকে জানায় যে এই প্রায় মানের গুণমান স্টিল (1994) এর প্যারাফ্রেজ করতে এস এর স্কোয়ারের যোগফল দ্বারা পরিচালিত হয় । সুতরাং আপনার সমস্ত গুলি যদি যুক্তিসঙ্গতভাবে ছোট হয় তবে এটি এখন যেমন প্রদর্শিত হয় তবে এটি খুব ভাল অনুমান করা উচিত।λ = p i p i p iYλ=pipipi

সম্পাদনা 2 : 'যুক্তিসঙ্গতভাবে ছোট' কতটা ছোট? ঠিক আছে, এটি আপনার নির্ভর করতে কতটা প্রয়োজন তা নির্ভর করে! লে ক্যাম এর উপপাদ্য উইকিপিডিয়ার নিবন্ধ ফলাফলের আমি উপরের উল্লেখিত সুনির্দিষ্ট ফর্ম দেয়: মধ্যে পরম পার্থক্যের সমষ্টি সম্ভাব্যতা ভর ফাংশন এর (pmf) এবং পইসন উপরে বিতরণের pmf দুইবার সমষ্টি ছাড়া আর কিছুই নয় s এর স্কোয়ারগুলির । লে ক্যামের (1960) এর অন্য ফলাফলটি ব্যবহার করা সহজ হতে পারে: এই যোগফলটি বৃহত্তম চেয়ে 18 গুণ বেশি নয় । এরকম আরও কয়েকটি ফলাফল রয়েছে ... একটি পর্যালোচনার জন্য সার্ফলিং (1978) দেখুনp i p iYpipi


1
+1 কোনও খারাপ ধারণা নয়। প্রশ্নটি কীভাবে পরিষ্কার করা হয়েছে তার উপর নির্ভর করে পইসনসের একটি ছোট মিশ্রণ একটি ভাল কাজ করবে বলে সম্ভবত।
শুক্র

1
আমি নেতিবাচক দ্বিপদী বিতরণ সম্পর্কে পরামর্শ দিয়েছিলাম যা গামা-পোইসন মিশ্রণ হিসাবে উত্থাপিত হয়েছিল, তবে এর গড়ের চেয়ে বড় একটি ভিন্নতা রয়েছে, যদিও এই সমস্যাটির গড়ের চেয়ে ছোটতম প্রকরণ রয়েছে। এর ভিত্তিতে, আমি নিশ্চিত নই যে পোইসনগুলির কোনও মিশ্রণ কাজ করবে কিনা, অবশ্যই এই জাতীয় কোনও মিশ্রণের তারতম্যের চেয়ে বড় পরিমাণ থাকবে? ??
onestop

@ অনস্টপ কোথায় বলা হয়েছিল যে বৈকল্পিক গড়ের চেয়ে কম? আমি উক্তিটি মিস করি।
শুক্রবার

দুঃখিত হুবুহু, এটি কিছুটা রহস্যজনক কিন্তু এই মন্তব্যগুলি এত বিস্তৃতকরণের অনুমতি দেয় না। mpiktas এর হল বৈকল্পিক, যা গড়ের চেয়ে কম, । যদি গড়ে খুব সামান্য হয় তবে কেবল সামান্য কম , তাই স্ট্যান্ডার্ড পইসন যথেষ্ট ভাল হতে পারে। হয়তো আমার উপরে আমার উত্তরটি প্রসারিত করা উচিত .. তবে তারপরে কথোপকথন থ্রেড বিভ্রান্ত হয়। পি i পি iBn=pi(1pi)pipi
onestop

বলতে কী ? আমি কীভাবে মান পাব ? এক্স iXiXi
ডেভিড বি

11

এই খুব সমস্যার সমাধান খুঁজতে গিয়ে আমি আপনার প্রশ্নটি জুড়ে এসেছি। আমি এখানে উত্তরগুলির সাথে ভয়ঙ্করভাবে সন্তুষ্ট ছিলাম না, তবে আমি মনে করি একটি খুব সহজ সমাধান রয়েছে যা আপনাকে সঠিক বিতরণ দেয় এবং এটি বেশ ট্র্যাকটেবল।

দুটি বিচ্ছিন্ন এলোমেলো ভেরিয়েবলের যোগফল তাদের ঘনত্বের সমান্তরাল ities সুতরাং যদি আপনার কাছে যেখানে আপনি এবং তবে আপনি গণনা করতে পারেন:পি ( এক্স ) পি ( ওয়াই )Z=X+YP(X)P(Y)

P(Z=z)=k=P(X=k)P(Y=zk)

(অবশ্যই বের্নোলির এলোমেলো ভেরিয়েবলগুলির জন্য আপনাকে যথেষ্ট অনন্তের দিকে যেতে হবে না ))

আপনি আপনার আরভি গুলির যোগফলের সঠিক বন্টন জানতে এটি ব্যবহার করতে পারেন। আরভিগুলির প্রথম দুটি যোগফল একত্রে তাদের পিডিএফগুলি (যেমন [0.3, 0.7] * [0.6, 0.4] = [0.18, 0.54, 0.28]) একত্রিত করে। তারপরে আপনার পরবর্তী বার্নুলি পিডিএফ (যেমন [0.18, 0.54, 0.28] * [0.5, 0.5] = [0.09, 0.36, 0.41, 0.14]) দিয়ে সেই নতুন বিতরণটি সমাধান করুন। সমস্ত আরভি যোগ করা না হওয়া পর্যন্ত এটি পুনরাবৃত্তি করুন e এবং ভয়েলা, ফলাফল ভেক্টর হ'ল আপনার সমস্ত ভেরিয়েবলের যোগফলের সঠিক পিডিএফ।

আমি সিমুলেশন দিয়ে যাচাই করেছি যে এটি সঠিক ফলাফল দেয়। এটি কোনও অ্যাসিম্পোটিক অনুমানের উপর নির্ভর করে না এবং এর কোনও প্রয়োজন নেই যে বার্নোল্লি প্রোবগুলি ছোট।

বারবার বোঝার চেয়ে আরও দক্ষতার সাথে এটি করার কিছু উপায়ও থাকতে পারে তবে আমি এ সম্পর্কে খুব গভীরভাবে চিন্তা করিনি। আমি আশা করি এটি কারও পক্ষে সহায়ক!


2
আপনি কি 40 কে ভেরিয়েবল দিয়ে চেষ্টা করেছেন ?? (আমি ভাবছি কত ঘন্টা বা গণনার এটা লাগে দিন ...)
whuber

5
(+1) আমি এই ধারণাটিকে কাজ করার একটি উপায় খুঁজে পেয়েছি। এর জন্য দুটি কৌশল প্রয়োজন: প্রথমত, কনভোলিউশনের জন্য এফএফটি ব্যবহার করুন; দ্বিতীয়ত, সেগুলি ক্রমিকভাবে করবেন না, তবে ভাগ করুন এবং বিজয় করুন: তাদেরকে জোড় জোড় করে করুন, তারপর জোড় জোড়ায় ফলাফল করুন etc. ইত্যাদি, অ্যালগোরিদম এখন চেয়ে স্কেল করে as জন্য সম্ভাব্যতা। উদাহরণস্বরূপ, ম্যাথামেটিকা কেবল 0.4 সেকেন্ডের মধ্যে 40,000 সম্ভাব্যতার জন্য পুরো বিতরণটি গণনা করতে পারেন । (1,000,000 10.5 সেকেন্ডে গণনা করা হয়)) আমি ফলোআপ মন্তব্যে কোড সরবরাহ করব। ( এন 2 ) এনO(nlogn)O(n2)n
whuber

7
এখানে গাণিতিক কোডটি রয়েছে: multinomial[p_] := Module[{lc, condense}, lc = Function[{s}, ListConvolve[s[[1]], s[[2]], {1, -1}, 0]]; condense = Function[{s}, Map[lc, Partition[s, 2, 2, {1, 1}, {{1}}]]]; Flatten[NestWhile[condense, Transpose[{1 - p, p}], Length[#] > 1 &]]] এটি প্রয়োগ করতে কিছু পছন্দ করুন p = RandomReal[{0, 1}, 40000]; pp = multinomial[p];। এটি সম্ভাব্যতা তৈরি করে pএবং তারপরে সঠিক বিতরণটি গণনা করে ppএনবি যখন এর মাধ্যম pচূড়ান্ত না হয়, বিতরণটি খুব স্বাভাবিকের কাছাকাছি থাকে: এটি এখনও আরও দ্রুত অ্যালগরিদম বাড়ে।
whuber

9

@ ইউনেস্টপ ভাল রেফারেন্স সরবরাহ করে। পোইসন দ্বিপদী বিতরণ সম্পর্কিত উইকিপিডিয়া নিবন্ধটি হুবহু সম্ভাব্যতা বন্টনের গণনার জন্য পুনরাবৃত্ত সূত্র দেয়; এটির জন্য প্রচেষ্টা দরকার। দুর্ভাগ্যক্রমে, এটি একটি বিকল্প যোগফল, সুতরাং এটি সংখ্যাগতভাবে অস্থির হবে: ভাসমান পয়েন্ট গণিতের সাথে এই গণনাটি করা আশাজনক hope সৌভাগ্যক্রমে, যখন ছোট হয়, আপনার কেবলমাত্র কয়েকটি সংখ্যক সম্ভাবনা গণনা করা দরকার, সুতরাং প্রচেষ্টাটি আনুপাতিক । যৌক্তিক গাণিতিক ( যেমন ঠিক, যাতে সংখ্যার অস্থিরতা কোনও সমস্যা না হয়) দিয়ে গণনাটি পরিচালনা করার জন্য প্রয়োজনীয় নির্ভুলতা ধীরে ধীরে যথেষ্ট বৃদ্ধি পায় যে সামগ্রিক সময়সীমা এখনও প্রায়পি আই( এন লগ ( আমি পি i ) ) ( এন 2 )O(n2)piO(nlog(ipi))O(n2)। এটা সম্ভব!

একটি পরীক্ষা হিসেবে আমি সম্ভাব্যতার একটি অ্যারের নির্মিত বিভিন্ন মানের জন্য পর্যন্ত , যা এই সমস্যা মাপ। ছোট মানগুলির জন্য ( to অবধি ) সম্ভাবনার সঠিক গণনা করার সময়টি সেকেন্ডে ছিল এবং চতুর্ভুজভাবে ছোট করে দেওয়া হয়েছিল, তাই আমি for এর জন্য একটি উপরের তিনটি এসডি-র জন্য একটি গণনা বের করেছিলাম গড় (0, 1, ..., 22 সাফল্যের জন্য সম্ভাবনা)। পূর্বাভাসিত সময়ের সাথে মিল রেখে এটি 80 মিনিট (গণিত 8 এর সাথে) নিয়েছে। (ফলস্বরূপ সম্ভাব্যতাগুলি ভগ্নাংশ যাঁর সংখ্যা এবং ডিনোমিয়েটরের প্রায় 75,000 অঙ্ক রয়েছে!) এটি দেখায় যে গণনা করা যেতে পারে।pi=1/(i+1)n = 2 16 এন এন = 2 12 এন = 2 16nn=216nn=212n=216

একটি বিকল্প হ'ল দীর্ঘ সিমুলেশন চালানো (এক মিলিয়ন ট্রায়াল করা উচিত)। এটি কেবল একবারই করতে হবে, কারণ পরিবর্তন হয় না।pi


9

(কারণ এটি পোস্ট করা অন্যান্য সমাধানগুলির তুলনায় আমি স্বতন্ত্র, যদিও আমি পোস্ট করেছি এমন একটি সমাধান, আমি এটিকে পৃথক প্রতিক্রিয়া হিসাবে প্রস্তাব করছি)।

আপনি সেকেন্ডে (বা তার চেয়ে কম) সঠিক বিতরণ গণনা করতে পারেন তবে পি এর যোগফল ছোট হয়।

আমরা ইতিমধ্যে পরামর্শগুলি দেখেছি যে বিতরণটি প্রায় গাউসিয়ান (কিছু পরিস্থিতিতে)) বা পোইসন (অন্যান্য পরিস্থিতিতে থাকতে পারে)। যে কোনও উপায়ে, আমরা জানি যে এর অর্থ হল এবং এর এর যোগফল এর যোগফল । অতএব বন্টন তার গড় কয়েক স্ট্যান্ডার্ড ডেভিয়েশন মধ্যে ঘনীভূত হবে বলে সঙ্গে এসডিএস 4 এবং 6 বা ঐ স্থানের কাছাকাছি মধ্যে। অতএব আমরা কেবল সম্ভাব্যতা যে সমষ্টি গনা প্রয়োজন সমান (একটি পূর্ণসংখ্যা) জন্য মাধ্যমে । যখন বেশিরভাগপি আমি σ 2 পি আমি ( 1 - পি আমি ) z- র z- র এক্স = μ - z- র σ = μ + + z- র σ পি আমি σ 2 μ [ μ - z- র μpiσ2pi(1pi)zzXkk=μzσk=μ+zσpiছোট, প্রায় সমান (তবে এর চেয়ে কিছুটা কম) , সুতরাং রক্ষণশীল হতে আমরা ব্যবস্থায় এর জন্য গণনা করতে পারি । উদাহরণস্বরূপ, যখন এর সমষ্টি সমান এবং নির্বাচন অর্ডার ভাল মুদ্রার উলটা পিঠ আবরণ, আমরা কভার করতে গণনার প্রয়োজন হবে মধ্যে = , যা কেবল ২৮ টি মান।σ2μkপিi9জেড=6কে[9-6[μzμ,μ+zμ]pi9z=6k[0,27][969,9+69][0,27]

বিতরণ পুনরাবৃত্তি গণনা করা হয় । যাক প্রথম এর সমষ্টি বিতরণের হতে এই বের্নুলির ভেরিয়েবল। কোন থেকে মাধ্যমে , প্রথম এর সমষ্টি ভেরিয়েবল সমান করতে দুই পারস্পরিক একচেটিয়া উপায়ে: প্রথম এর সমষ্টি ভেরিয়েবল সমান এবং হয় বা অন্য প্রথম এর সমষ্টি ভেরিয়েবল সমান এবং হয় । অতএব i j 0 i + 1 i + 1 j i j i + 1 st 0 i j - 1 i + 1 st 1fiij0i+1i+1jiji+1st0ij1i+1st1

fi+1(j)=fi(j)(1pi+1)+fi(j1)pi+1.

আমাদের কেবলমাত্র এই গণনাটি থেকে ব্যবধানে অবিচ্ছেদ্য এর জন্যসর্বাধিক ( 0 , μ - z √) √j μ+zmax(0,μzμ) μ+zμ.

যখন বেশিরভাগ ক্ষুদ্র হয় (তবে এখনও যুক্তিসঙ্গত নির্ভুলতার সাথে থেকে পৃথক ) তবে এই পদ্ধতির আমি পূর্বে পোস্ট করা সমাধানটিতে ব্যবহৃত ভাসমান পয়েন্ট রাউন্ডঅফ ত্রুটির বিশাল সংশ্লেষের সাথে জর্জরিত নয়। অতএব, প্রসারিত-নির্ভুলতা গণনার প্রয়োজন হয় না। উদাহরণস্বরূপ, সম্ভাব্য অ্যারের জন্য একটি ডাবল-স্পষ্টতা গণনা ( , থেকে মধ্যে অঙ্কের সম্ভাবনার জন্য গণনা প্রয়োজন 1 - পি আই 1 2 16 পি আই = 1 / ( আই + 1 ) μ = 10.6676 0 31 3 × 10 - 15 জেড = 6 3.6 × 10 - 8pi1pi1216pi=1/(i+1)μ=10.6676031) এক্সেল 2002 এর সাথে ম্যাথমেটিকা ​​8 এবং 1-2 সেকেন্ডের সাথে 0.1 সেকেন্ড নিয়েছিল (উভয়ই একই উত্তর পেয়েছে)। (ম্যাথামেটিকাল মধ্যে) চতুর্গুণ স্পষ্টতা সঙ্গে এটি পুনরায় 2 সেকেন্ডের সম্পর্কে লেগেছিল তবে বেশি করে যে কোনো উত্তর পরিবর্তন না করে । উপরের লেজের মধ্যে এসডিগুলিতে বিতরণ বন্ধ করে মোট সম্ভাবনার মাত্র only হারিয়েছে ।3×1015z=63.6×108

0 এবং 0.001 ( ) এর মধ্যে 40,000 ডাবল স্পষ্টতা র‌্যান্ডম মানগুলির অ্যারের জন্য অন্য গণনা গণিতের সাথে 0.08 সেকেন্ড সময় নিয়েছিল।μ=19.9093

এই অ্যালগরিদম সমান্তরাল। কেবলমাত্র র সেটটি প্রায় সমান আকারের বিচ্ছিন্ন সাবসেটগুলিতে বিভক্ত করুন, প্রতিটি প্রসেসরের জন্য একটি। প্রতিটি সাবসেটের জন্য বিতরণ গণনা করুন, তারপরে পুরো উত্তরটি পেতে ফলাফলগুলি সমাধান করুন (যদি আপনি চান এফএফটি ব্যবহার করে, যদিও এই স্পিডআপটি সম্ভবত অপ্রয়োজনীয়)। বড় হয়ে গেলেও, এটি আপনাকে ব্যবহারিকভাবে ব্যবহারিক করে তোলে , যখন আপনাকে লেজগুলি ( লার্জ) থেকে আরও দূরে সন্ধান করা প্রয়োজন , এবং / অথবা বড় হয়। μ z npiμzn

প্রসেসরের সাথে ভেরিয়েবলগুলির একটি অ্যারের সময় । গণিতের গতি প্রতি সেকেন্ডে এক মিলিয়ন অর্ডার হয়। উদাহরণস্বরূপ, প্রসেসরের সাথে, তারতম্য, মোট সম্ভাব্যতা এবং স্ট্যান্ডার্ড বিচ্যুতির উপরের লেজের মধ্যে যেতে হবে, মিলিয়ন: কম্পিউটিং সময় কয়েক সেকেন্ড চিত্র। আপনি যদি এটি সংকলন করেন তবে আপনি পারফরম্যান্সটির দুটি আদেশের ক্রমকে গতি বাড়িয়ে তুলতে পারেন।এম ( এন ( μ + জেড √) √nmএম=1এন=20000μ=100জেড=6এন(μ+জেড √) √O(n(μ+zμ)/m)m=1n=20000μ=100z=6n(μ+zμ)/m=3.2

ঘটনাচক্রে, এই পরীক্ষাগুলির ক্ষেত্রে, বিতরণের গ্রাফগুলি স্পষ্টত কিছু ইতিবাচক ত্রুটি দেখিয়েছিল: এগুলি স্বাভাবিক নয়।

রেকর্ডের জন্য, এখানে একটি গাণিতিক সমাধান:

pb[p_, z_] := Module[
  {\[Mu] = Total[p]},
  Fold[#1 - #2 Differences[Prepend[#1, 0]] &, 
   Prepend[ConstantArray[0, Ceiling[\[Mu] + Sqrt[\[Mu]] z]], 1], p]
  ]

( এনবি এই সাইটের দ্বারা প্রয়োগ করা রঙ কোডিং ম্যাথমেটিক কোডের জন্য অর্থহীন particular বিশেষত ধূসর জিনিস কোনও মন্তব্য নয় : এখানেই সমস্ত কাজ শেষ হয়েছে!)

এর ব্যবহারের একটি উদাহরণ

pb[RandomReal[{0, 0.001}, 40000], 8]

সম্পাদন করা

এই পরীক্ষার ক্ষেত্রে ম্যাথমেটিকেরR চেয়ে একটি সমাধান দশগুণ ধীর - সম্ভবত আমি এটিকে সর্বোত্তমভাবে কোড করি নি - তবে এটি দ্রুত কার্যকর হয় (প্রায় এক সেকেন্ড):

pb <- function(p, z) {
  mu <- sum(p)
  x <- c(1, rep(0, ceiling(mu + sqrt(mu) * z)))
  f <- function(v) {x <<- x - v * diff(c(0, x));}
  sapply(p, f); x  
}
y <- pb(runif(40000, 0, 0.001), 8)
plot(y)

পিডিএফ প্লট


8

বিভিন্ন আপনার সেরা আমার কাছে স্বাভাবিক আনুমানিক বলে মনে হয়। যাক । তারপরB n = n i = 1 p i ( 1 - p i )piBn=i=1npi(1pi)

Bn1/2(i=1nXii=1npi)N(0,1),
হিসাবে , প্রতিটি providednε>0

Bn1i=1nE((Xipi)21{|Xipi|>εBn1/2})0,
কে হিসাবে চিহ্নিত করুন , যা ভেরিয়েবলগুলি ধারণ করবে । এটি তথাকথিত লিন্ডবার্গ শর্ত, যা মানকে স্বাভাবিক রূপান্তরিত করার জন্য পর্যাপ্ত এবং প্রয়োজনীয়।nBn

আপডেট: আনুমানিক ত্রুটি নিম্নলিখিত অসমতা থেকে গণনা করা যেতে পারে:

supx|Fn(x)Φ(x)|ALn,
যেখানে এবং এর ছোটো এবং কেন্দ্রিক সমষ্টি সিডিএফ হয় ।
Ln=Bn3/2i=1nE|Xipi|3
FnXi

যেহেতু হুবুহু জানিয়েছে, খারাপ আচরণ করা জন্য এই রূপান্তরটি ধীর হতে পারে । জন্য আমরা আছে এবং । তারপরে taking নেওয়ার পরে আমরা পাই যে মানক সাধারণ সিডিএফ থেকে সর্বাধিক বিচ্যুতি হ'ল একটি তীব্র 0.3।pipi=11+iBnlnnLn(lnn)1/2n=216


3
পি_আই যখন শূন্যের দিকে এগিয়ে যায় তখন এটি সত্য হয় না। অন্যথায়, আপনি কেবল প্রমাণ করেছেন যে পোইসন বিতরণটি সাধারণ!
whuber

1
এজন্য এটি অবশ্যই হতে হবে । তাহলে তুলনায় দ্রুততর হারে শূন্য কাছে , । Bnpi1/ilimBn<
এমপিটিকাস

@ এমপিটাস ঠিক আছে। পোইসন বিতরণের উপমাটি এখানে পুরোপুরি ফিট করে না।

যাইহোক, আমি দ্বিতীয় অনুচ্ছেদে প্রকৃতপক্ষে সেই ভয়ানক অবস্থাটি চেক করিনি।

@G। জে কার্নস আমি সম্মত হই যে পোইসনের সাথে সাদৃশ্যটি অসম্পূর্ণ, তবে আমি মনে করি এটি ভাল দিকনির্দেশনা দেয়। পি এর এক অনুক্রমের কল্পনা করুন, পি_আই = 10 ^ {- জে}, যেখানে j হ'ল i এর প্রস্থের ক্রম (i <= 10 এর জন্য 1 সমান, i <= 100 ইত্যাদি)) যখন এন = 10 ^ কে, পি এর সমান 10 ^ {- কে 90 এর 90% এবং তাদের যোগফল 0,9 প্রত্যাশার সাথে পোয়েসন দেখায়। অন্য 9% সমান 10 ^ {1-কে} এবং তাদের যোগফল পয়েসনকে দেখায় (একই প্রত্যাশা সহ)। সুতরাং বিতরণটি প্রায় পো পোসনের পরিবর্তনের যোগফলের মতো দেখায়। এটি স্বাভাবিকের কাছাকাছি কোথাও নেই। যেখান থেকে প্রয়োজন "ভয়ানক অবস্থা"।
হোয়বার

4

ভাল, আপনার বিবরণ এবং মন্তব্যে আলোচনার ভিত্তিতে এটি স্পষ্ট যে এর অর্থ এবং তারতম্য । এর বিতরণের আকারটি শেষ পর্যন্ত এর আচরণের উপর নির্ভর করবে । উপযুক্ত "সুন্দর" (এই অর্থে যে তাদের মধ্যে খুব বেশি সত্যই শূন্যের কাছাকাছি নেই) এর জন্য, বিতরণ প্রায় স্বাভাবিক হবে (ডানদিকে ) থাকবে) কিন্তু শূন্য দিকে শিরোনাম শুরু বন্টন বাম স্থানান্তরিত করা হবে এবং যখন এটি বিরুদ্ধে জনতারYipiipi(1pi)YpipiYpiipiy-হেতু এটি অনেক কম স্বাভাবিক এবং আরও অনেকটা পয়সন দেখা শুরু করবে, যেমন @ হুইবার এবং @ ইউনস্টপ উল্লেখ করেছেন।

আপনার মন্তব্য থেকে "বিতরণটি পোয়েসন দেখায়" আমি সন্দেহ করি যে এই উত্তরোত্তর ঘটনাটি ঘটছে, তবে বিষয়ে কিছু ধরণের ভিজ্যুয়াল প্রদর্শন বা সংক্ষিপ্ত পরিসংখ্যান ছাড়া সত্যই নিশ্চিত হওয়া যায় না । তবে খেয়াল করুন, যেমন @ হুবারের মতো, এর পর্যাপ্ত প্যাথলজিকাল আচরণের সাথে আপনি সমস্ত ধরণের ভুতুড়ে জিনিসগুলি যেমন মেশানো বিতরণ সীমাবদ্ধতার মতো ঘটতে পারেন। আমি সন্দেহ করি এটি এখানেই ঘটেছে তবে এটি আবার আপনার কী করছে তার উপর নির্ভর করে ।ppp

"কীভাবে দক্ষতার সাথে মডেল করবেন" এর মূল প্রশ্ন হিসাবে, আমি আপনার জন্য একটি শ্রেণিবিন্যাসের মডেল প্রস্তাব করতে যাচ্ছিলাম তবে এর স্থির প্রতিবন্ধক হলে এটি যথাযথ নয় । সংক্ষেপে, এর একটি হিস্টোগ্রাম দেখুন এবং আপনি যা দেখেন তার উপর ভিত্তি করে প্রথম অনুমান করুন। আমি উত্তরটি @ এমপিক্টাস (এবং এক্সটেনশন @ এসএসজিলেসপি দ্বারা) সুপারিশ করবো যদি আপনার এর বাম দিকে খুব বেশি ভিড় না থাকে এবং আমি উত্তরগুলি কেবলমাত্র বাম-লির মধ্যে ভিড়তে থাকলে উত্তরটি সুপারিশ করব।ppp

যাইহোক, এই সমস্যাটি ঘিরে খেলার সময় আমি যে আর কোডটি ব্যবহার করেছি তা এখানে রয়েছে: আপনার খুব ছোট হলে কোডটি সত্যিই উপযুক্ত নয় , তবে জন্য বিভিন্ন মডেলগুলিতে প্লাগ করা সহজ হওয়া উচিত (স্পোকি- পাগলরা) চূড়ান্ত বিতরণে কী ঘটে তা দেখতে ।ppY

set.seed(1)
M <- 5000
N <- 15000
p <- rbeta(N, shape1 = 1, shape2 = 10)
Y <- replicate(M, sum(rbinom(N, size = 1, prob = p)))

এখন ফলাফল দেখুন।

hist(Y)
mean(Y)
sum(p)
var(Y)
sum(p*(1 - p))

আনন্দ কর; আমি নিশ্চিত করেছি।


আপনি কেন বলেন যে "যদি আপনার গুলি খুব ছোট হয় তবে কোডটি আসলেই উপযুক্ত নয় "? আমার কাছে ঠিকঠাক কাজ বলে মনে হচ্ছে, যেমন আকৃতি 1 = 1, শেপ 2 = 999 দিয়ে, 0.001 এর গড় । pp
onestop

উপরের লেখার (অনূর্ধ্ব) আমি যা বোঝাতে চেয়েছি তার উপরের লিখিত (1,10) নির্দিষ্ট পছন্দটি খুব কম মান দেয় না, এই বিষয়টিটিও যে স্বাভাবিক আনুমানিকতা খুব ভাল দেখায়। যদি কোনও ব্যক্তি পয়সন বাইরে আসতে চায় তবে তাদের অন্য কিছু চেষ্টা করা প্রয়োজন; মনে হচ্ছে আপনার পছন্দ (1,999) ভাল কাজ করে, হ্যাঁ? আমি thought তৈরি করার কথাও বলেছিলাম , বলুন, 0.25, কিন্তু আমি এটি চেষ্টা করি নি। pα<1

2

আমার মনে হয় অন্যান্য উত্তর দুর্দান্ত, তবে আমি আপনার সম্ভাবনা অনুমান করার কোনও বায়েশিয়ান উপায় দেখিনি। উত্তরের একটি স্পষ্ট রূপ নেই, তবে সম্ভাব্যতাটি আর ব্যবহার করে অনুকরণ করা যেতে পারে।

চেষ্টা এখানে:

Xi|piBer(pi)

piBeta(α,β)

উইকিপিডিয়া ব্যবহার করে আমরা এবং (প্যারামিটার অনুমানের বিভাগটি দেখুন) এর অনুমান পেতে পারি।α^β^

এখন আপনি তৈরি করতে পারেন জন্য স্বপক্ষে পদক্ষেপ, উৎপন্ন থেকে এবং তারপর উৎপন্ন থেকে । আপনি এই বার করার পরে আপনি পেতে পারেন । এটি Y এর প্রজন্মের জন্য একটি একক চক্র, এই (বৃহত) বার বার করুন এবং Ys এর জন্য হিস্টگرام হবে Y এর ঘনত্বের অনুমান beithpiBeta(α^,β^)XiBer(pi)NY=XiMM

Prob[Yy]=#YyM

এই বিশ্লেষণটি কেবল তখনই বৈধ হয় যখন স্থির হয় না। piএখানে হয় না। তবে কারওর মতোই যদি প্রশ্ন থাকে তবে আমি এটি এখানে রেখে দেব will


1
কিছু বিশুদ্ধবাদীদের কাছে এটি বয়েশিয়ান নাও হতে পারে। এটি আসলে বুদ্ধিদীপ্ত বায়েশিয়ান, তবে হাইপার পূর্বের জাম্বু জাম্বুরির আশ্রয় ছাড়াই আর-তে আপনার সম্ভাবনাগুলি অনুকরণ করার একটি দ্রুত উপায়।
সানকুলসু

1
যখন পি_আই দেওয়া হয় তখন কেন আপনার প্রিয়ার দরকার?
শুক্রবার

@whuber। ধন্যবাদ, আপনি ঠিক বলেছেন। আমি নির্দিষ্ট অংশটি মিস করেছি missed আমি ভেবেছিলাম ডেভিড কেবল মান হিসাবে (কিউএক্স) / সি হিসাবে ব্যবহার করছেন এবং এটি স্থির নয়। আমি আমার উত্তর সম্পাদনা করব। pi
সানকুলসু

@suncoolsu - দয়া করে মনে রাখবেন একটি "বেটা-Bernoulli" ডিস্ট্রিবিউশন শুধু আরেকটি Bernoulli বন্টন কিন্তু প্রতিস্থাপন হয় । এটি ase bec, । তাই মূলত উপর মিশিয়ে তুমি এখানে দ্বিপদ পড়তা আবেদন করেন । piαα+β(1xi)B(α+xi,β+1xi)B(α,β)=αxiβ1xiα+βpip1=p2==pn
সম্ভাব্যতাব্লোগিক

2

অন্যান্য উত্তরে যেমন উল্লেখ করা হয়েছে, সম্ভাব্যতা বিতরণটি আপনি পয়সন বাইনোমিয়াল বিতরণ বর্ণনা করেছেন। সিডিএফ কম্পিউটিংয়ের জন্য একটি কার্যকর পদ্ধতি হিল, ইিলিতে দেওয়া হয়েছে পয়সন দ্বিপদী বিতরণের জন্য বিতরণ ফাংশন গণনা করার সময়

পদ্ধতির বৈশিষ্ট্যগত বৈশিষ্ট্যটির ডিএফটি (বিচ্ছিন্ন ফুরিয়ার রূপান্তর) দক্ষতার সাথে গণনা করা।

দ্বিপদী বিতরণের বৈশিষ্ট্যযুক্ত ফাংশনটি ( ) দেওয়া হয়।ϕ(t)=jn[(1pj)+pjeit]i=1

অ্যালগরিদমটি হ'ল:

  1. যাক , জন্য ।zj(k)=1pj+pjcos(ωk)+ipjsin(ωk)ω=2πn+1
  2. নির্ধারণ , নির্ধারণ ।xk=exp{jnlog(zj(k))}x0=1
  3. জন্য গণনা । পেতে প্রতিসাম্য ।xkk=1,,[n/2]x¯k=xn+1k
  4. ভেক্টর করার FFT প্রয়োগ ।1n+1<x0,x1,,xn>
  5. সিডিএফ পেতে ফলাফলের যোগফল যোগ করুন।

আলগোরিদিমটি পুইবিন আর প্যাকেজে পাওয়া যায়।

এই সংখ্যা পুনরাবৃত্তাকার সূত্রগুলির তুলনায় অনেক ভাল ফলাফল দেয় কারণ তারা সংখ্যার স্থায়িত্বের অভাব থাকে।


3
আমার কাছে কেবল সেই কাগজের বিমূর্তে অ্যাক্সেস রয়েছে, তবে এটি স্ট্যাটস.স্ট্যাকেক্সচেঞ্জ / প্রশ্নগুলি / ৪১৪4747/২ এ ব্যবহৃত পদ্ধতিটি প্রয়োগ করে বলে মনে হচ্ছে এবং এটি এই থ্রেডে প্রদত্ত অন্যান্য পদ্ধতির সাথে তুলনা করে কীভাবে সম্পাদন করে তা আলোচনা করে। কাগজটি কী অর্জন করেছে সে সম্পর্কে যদি আপনি আরও জানেন তবে আমরা একটি সংক্ষিপ্ত বিবরণ পড়তে পেরে খুশি হব।
whuber

1

আমি পোইসন আনুমানিক প্রয়োগ করার পরামর্শ দেব। এটা সর্বজনবিদিত (দেখুন খ্রি বারবার, এল Holst ও এস Janson: পইসন পড়তা) যে মধ্যবর্তী মোট প্রকরণ দূরত্ব এবং একটি আরভি পরামিতি সঙ্গে পইসন বিতরণের থাকার ছোট হল: তথ্য বিচরণের ক্ষেত্রেও সীমাবদ্ধতা রয়েছে (কুলব্যাক-লেবেলারের দূরত্ব, আপনি পি। হেরেমোস দেখতে পাবেন: ইনফরমেশন ডাইভারজেনে পোইসন ডিস্ট্রিবিউশনে রূপান্তর। প্রিপ্রিন্ট নং 2, ফেব্রুয়ারি 2003, গাণিতিক বিভাগ, কোপেনহেগেন বিশ্ববিদ্যালয়। http: //www.harremoes.dk/Peter/poisprep.pdfYZipi

supA|P(YA)P(ZA)|min{1,1ipi}ipi2.
এবং পি। হারেমোমের অন্যান্য প্রকাশনা), চি-স্কোয়ার দূরত্ব (দেখুন বোরিসভ এবং ভোরোঝেইকিন https://link.springer.com/article/10.1007%2Fs11202-008-0002-3 ) এবং অন্যান্য কিছু দূরত্ব।

আনুমানিকের নির্ভুলতার জন্য আনবাউন্ডেড ফাংশনগুলির জন্য আপনি বরিসভ এবং রুজানকিন https://projecteuclid.org/euclid.aop/1039548369 দেখতে পাবেন । তদ্ব্যতীত, সেই কাগজটিতে সম্ভাবনার জন্য একটি সাধারণ বাঁধন রয়েছে: সমস্ত , আমাদের কাছে |Ef(Y)Ef(Z)|fA

P(YA)1(1maxipi)2P(ZA).


1
+1 আনুমানিক সীমা সম্পর্কে দরকারী পরিমাণগত তথ্য জন্য আপনাকে ধন্যবাদ। আমাদের সাইটে আপনাকে স্বাগতম!
হোয়বার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.