ওভারডিস্পেরেশন সহ একটি পয়সন বিতরণ মডেলিং


15

আমার কাছে একটি ডেটা সেট রয়েছে যা আমি কোনও পয়সন বিতরণ অনুসরণ করতে পারি বলে আশা করি তবে এটি প্রায় 3-ভাগে অতিক্রম করে। বর্তমানে, আমি আর এই নীচের কোডটির মতো কিছু ব্যবহার করে এই ওভারডিস্পারশনটি মডেলিং করছি।

## assuming a median value of 1500
med = 1500
rawdist = rpois(1000000,med)
oDdist = rawDist + ((rawDist-med)*3)

দৃশ্যত, এটি আমার অভিজ্ঞতা অভিজ্ঞতা খুব ভাল ফিট করে। যদি আমি ফিট থেকে খুশি, তবে এখানে কি বর্ণিত আছে যে কোনও নেতিবাচক দ্বিপদী বিতরণ ব্যবহার করার মতো আরও জটিল কিছু করা উচিত হওয়ার কোনও কারণ আছে কি? (যদি তা হয় তবে এটি করার জন্য কোনও পয়েন্টার বা লিঙ্কগুলি প্রশংসিত হবে)।

ওহ, এবং আমি সচেতন যে এটি কিছুটা দাগযুক্ত বিতরণ তৈরি করে (তিনটি দ্বারা গুণনের কারণে), তবে এটি আমার আবেদনের জন্য গুরুত্বপূর্ণ নয়।


আপডেট: এই প্রশ্নটি অনুসন্ধান ও সন্ধানকারী অন্য কারও পক্ষে, নেতিবাচক দ্বিপদী বিতরণ ব্যবহার করে অতিরিক্ত মাত্রায় পোষনকে মডেল করার জন্য এখানে একটি সাধারণ আর ফাংশন। পছন্দসই গড় / বৈকল্পিক অনুপাতের জন্য ডি সেট করুন:

rpois.od<-function (n, lambda,d=1) {
  if (d==1)
    rpois(n, lambda)
  else
     rnbinom(n, size=(lambda/(d-1)), mu=lambda)
}

(আর মেইলিং তালিকার মাধ্যমে: https://stat.ethz.ch/pipermail/r-help/2002- জুন/022425. html )

উত্তর:


11

অত্যধিক বিতরণকারী পোয়েসনের জন্য, নেতিবাচক দ্বিপদী ব্যবহার করুন, যা আপনাকে স্পষ্টভাবে গড়ের একটি ফাংশন হিসাবে বৈকল্পিকটিকে পরামিতি করতে দেয়। আরএনবিনোম () ইত্যাদি আর।


1
কেন পর্যবেক্ষণ-স্তরের এলোমেলো প্রভাব সহ নেতিবাচক দ্বিপদী এবং একটি মিশ্র মডেল নয়? এটি একটি অলঙ্কৃত প্রশ্ন না হয়। এটি একটি "আমার কোনটি পছন্দ করা উচিত তা আমি বুঝতে পারি না।" প্রশ্ন। এছাড়াও, যদি আমার বারবার ব্যবস্থা নেওয়ার পরিস্থিতি হয়? যখন আমার ডেটা অবিচ্ছিন্ন থাকে, আমি সাধারণ রৈখিক মিশ্র মডেলটি ব্যবহার করব। গামা বিতরণ প্রায়শই ধারাবাহিক জৈবিক ডেটার সাথে ভালভাবে কাজ করে এবং মিশ্র মডেলটি পুনরাবৃত্তি ব্যবস্থাগুলির উপাদানটি পরিচালনা করে। তবে যদি কেউ বারবার পরিমাপের গণনা তথ্যকে অতিরিক্ত মাত্রায় ফেলে থাকে তবে কেউ কী করবে?
ব্রায়ান

অতিরিক্ত বিতরণকারী পোয়েসন ডেটা দিয়ে পুনঃনির্মাণিত নেতিবাচক দ্বিপদী মডেল জনপ্রিয় হওয়ার এক কারণ হ'ল বি / সিটি এটি "অতিরিক্ত" বৈকল্পিককে মডেল করার জন্য একটি ওভার-ডিসপ্রেসন প্যারামিটারের সাথে গড়টির (পয়েসনের মতো একই) ফাংশন হিসাবে বৈকল্পিকাকে মডেল করে। : একটি দ্রুত সূত্রের জন্য পৃষ্ঠার 487 দেখুন worldscientific.com/doi/pdf/10.1142/9789813235533_0044 : reparameterization উপর একটি ব্যাখ্যা জন্য এবং উইকিপিডিয়া পৃষ্ঠা en.wikipedia.org/wiki/Negative_binomial_distribution
সমীর Rachid Zaim

4

যদি পোইসনের জন্য আপনার গড় মূল্য 1500 হয় তবে আপনি একটি সাধারণ বিতরণের খুব কাছে চলে যান; আপনি এটি প্রায় অনুমান হিসাবে ব্যবহার করার চেষ্টা করতে পারেন এবং তারপরে গড় এবং ভেরিয়েন্সকে আলাদাভাবে মডেলিং করতে পারেন।


এটি কেবলমাত্র একটি উদাহরণ - এটির একটি মধ্যবর্তী থাকতে পারে যা ২০০ এর ক্রম অনুসারে অনেক ছোট (এটি কীভাবে আমি ডেটা বিভক্ত করি তার উপর নির্ভর করে)। এটি একটি সাধারণ বিতরণ ব্যবহার বন্ধ করতে হবে, তাই না?
ক্রিসমিলার

1
পোইসন বিতরণের স্বাভাবিক অনুমানটি বেশ শক্তিশালী, সিডিএফগুলির মধ্যে পার্থক্যটি 0.75 / স্কয়ার্ট (ল্যাম্বদা) এর মতো কিছু দ্বারা আবদ্ধ, যদি আমি সঠিকভাবে স্মরণ করি। আমি ল্যাম্বদা = 200 ব্যবহার করে খুব বেশি চিন্তিত হব না, তবে আপনি যদি আরও ঝুঁকি-বিরুদ্ধ হন তবে অবশ্যই নেতিবাচক দ্বিপদী নিয়ে যান।
ধনী
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.