আমি কীভাবে আরে পেরেটো বিতরণে ডেটা সেট করব?

নীচের তথ্যটি বলে রাখি:

8232302  684531  116857   89724   82267   75988   63871   
  23718    1696     436     439     248     235

পেরেটো বিতরণে এটির (এবং বেশ কয়েকটি অন্যান্য ডেটাসেট) ফিট করার একটি সহজ উপায় চান। আদর্শভাবে এটি মিলবে তাত্ত্বিক মানগুলি, কম আদর্শ পরামিতিগুলিকে ফলাফল দেয়।

r pareto-distribution

— ফেলিক্স
সূত্র

cran.r-project.org/web/packages/fitdistrplus/ Fitdistrplus.pdf

— স্টাফেন লরেন্ট

"তাত্ত্বিক মানগুলির সাথে মিল রেখে" কী বোঝায়? অর্ডার পরিসংখ্যানের প্রত্যাশা পরামিতি অনুমান? অথবা অন্য কিছু?

— গ্লেন_বি -রিনস্টেট মনিকা

ঠিক আছে, যদি আপনার কাছে একটি নমুনা প্যারামিটার সাথে প্যারামিটার বন্টন থেকে থাকে>>> এবং pha (যেখানে নীচের চৌম্বক প্যারামিটার এবং আকারের প্যারামিটার হয়) এর লগ-সম্ভাবনা নমুনাটি হ'ল: $X_1, ..., X_n$ $m>0$ $\alpha>0$ $m$ $\alpha$

n \log (α) + n α \log (m) - (α + 1) \sum_{i = 1}^{n} \log (X_{i})

$n \log(\alpha) + n \alpha \log(m) - (\alpha+1) \sum_{i=1}^{n} \log(X_i)$

এটি একঘেয়েভাবে বৃদ্ধি পাচ্ছে , তাই ম্যাক্সিমাইজার হ'ল বৃহত্তম মান যা পর্যবেক্ষণ করা তথ্যের সাথে সামঞ্জস্যপূর্ণ। যেহেতু প্যারামিটার নিম্ন সংজ্ঞায়িত Pareto বিতরণের জন্য সমর্থন আবদ্ধ, সর্বোত্তম হয় $m$ $m$

\hat{m} = min_{i} X_{i}

$\hat{m} = \min_{i} X_i$

যা উপর নির্ভর করে না । এর পরে, সাধারণ ক্যালকুলাস ট্রিকস ব্যবহার করে জন্য এমএলই অবশ্যই সন্তুষ্ট হয় $\alpha$ $\alpha$

\frac{n}{α} + n \log (\hat{m}) - \sum_{i = 1}^{n} \log (X_{i}) = 0

$\frac{n}{\alpha} + n \log( \hat{m} ) - \sum_{i=1}^{n} \log(X_i) = 0$

কিছু সহজ বীজগণিত আমাদের MLE বলে এর হল $\alpha$

\hat{α} = \frac{n}{\sum_{i = 1}^{n} \log (X_{i} / \hat{m})}

$\hat{\alpha} = \frac{n}{\sum_{i=1}^{n} \log(X_i/\hat{m})}$

অনেকগুলি গুরুত্বপূর্ণ ইন্দ্রিয়গুলিতে (যেমন: ক্রেমার-রাও নিম্ন সীমাটি অর্জন করে এমন অনুকূল অ্যাসিম্পটোটিক দক্ষতা), এটি পেরেটো বিতরণে ডেটা ফিট করার সেরা উপায়। নীচের আর কোডটি প্রদত্ত ডেটা সেটের জন্য এমএলই গণনা করে X।

pareto.MLE <- function(X)
{
   n <- length(X)
   m <- min(X)
   a <- n/sum(log(X)-log(m))
   return( c(m,a) ) 
}

# example. 
library(VGAM)
set.seed(1)
z = rpareto(1000, 1, 5) 
pareto.MLE(z)
[1] 1.000014 5.065213

সম্পাদনা: @ কার্ডিনাল এবং নীচে আমি করা মন্তব্যের উপর ভিত্তি করে, আমরা এও লক্ষ করতে পারি যে pha হ'ল এর নমুনা গড়ের পারস্পরিক একটি সূচকীয় বিতরণ আছে। অতএব, যদি আমাদের কাছে এমন সফ্টওয়্যার অ্যাক্সেস থাকে যা একটি তাত্ক্ষণিক বিতরণ মাপসই করতে পারে (যা সম্ভবত এটি অনেক পরিসংখ্যানগত সমস্যা থেকেই দেখা দেয়), তবে পেরেটো ডিস্ট্রিবিউশন ফিটিংটি এই উপায়ে সেট করা ডেটাগুলিকে রূপান্তর করে এবং এটি ফিট করার মাধ্যমে সম্পন্ন করা যেতে পারে রুপান্তরিত স্কেলে একটি ক্ষতিকারক বিতরণ। $\hat{\alpha}$ $\log(X_i /\hat{m})$

— ম্যাক্রো
সূত্র

(+1) রেট দিয়ে তাত্পর্যপূর্ণ বিতরণ করা হয়েছে তা উল্লেখ করে আমরা কিছুটা পরামর্শের সাথে জিনিসগুলি লিখতে পারি । রূপান্তরকরণের অধীনে এটি এবং এমএলইয়ের আক্রমণ থেকে আমরা একবারে উপসংহারে পৌঁছে যাই যে , যেখানে আমরা পরের অভিব্যক্তিতে দ্বারা প্রতিস্থাপন করি । এটি কোনও ইঙ্গিত দেয় যে কীভাবে আমরা কোনও পেরেটো ফিট করার জন্য স্ট্যান্ডার্ড সফ্টওয়্যার ব্যবহার করতে পারি এমনকি যদি কোনও স্পষ্ট বিকল্প নাও পাওয়া যায়।

Y_{i} = \log (X_{i} / m)

$Y_i = \log(X_i/m)$

α

$\alpha$

\hat{α} = 1 / \bar{Y}

$\hat\alpha = 1/\bar Y$

m

$m$

\hat{m}

$\hat m$

— কার্ডিনাল

@ কার্ডিনাল - সুতরাং, pha the হ'ল X এর নমুনাটির পারস্পরিক ক্রিয়াকলাপ, যার ঘনঘন বিতরণ ঘটে। এটি কীভাবে আমাদের সহায়তা করে?

\hat{α}

$\hat{\alpha}$

\log (X_{i} / \hat{m})

$\log(X_i/\hat{m})$

— ম্যাক্রো

হাই, ম্যাক্রো আমি যে বিষয়টিটি তৈরির চেষ্টা করছিলাম সেটি হ'ল যে পেরেটোর প্যারামিটারগুলি অনুমান করার সমস্যাটি (মূলত) কোনও ঘনিষ্ঠের হারের অনুমানের তুলনায় হ্রাস করা যেতে পারে: উপরের রূপান্তরের মাধ্যমে আমরা আমাদের ডেটা এবং সমস্যাটিকে একটি রূপান্তর করতে পারি (সম্ভবত) আরও পরিচিত একটি এবং তাত্ক্ষণিকভাবে উত্তরটি বের করুন (ধরে নিলাম আমরা, বা আমাদের সফ্টওয়্যার, এক্সপেনসিয়েন্টালের নমুনা দিয়ে কী করতে হবে)।

— কার্ডিনাল

আমি এই জাতীয় ফিটগুলির ত্রুটিটি কীভাবে পরিমাপ করতে পারি?

— ইমানুয়েল

ইমানুয়েলে, এমএলইয়ের আনুমানিক বৈকল্পিকতা হ'ল ফিশারের তথ্য ম্যাট্রিক্সের বিপরীতটি, যার জন্য আপনাকে লগ-সম্ভাবনার কমপক্ষে একটি ডাইরিভেটিভ গণনা করতে হবে। অথবা, আপনি স্ট্যান্ডার্ড ত্রুটিটি অনুমান করতে এক ধরণের বুটস্ট্র্যাপ পুনরায় মডেলিং ব্যবহার করতে পারেন।

— ম্যাক্রো

আপনি প্যাকেজে fitdistপ্রদত্ত ফাংশনটি ব্যবহার করতে পারেন fitdistrplus:

library(MASS)
library(fitdistrplus)
library(actuar)

# suppose data is in dataPar list
fp <- fitdist(dataPar, "pareto", start=list(shape = 1, scale = 500))
#the mle parameters will be stored in fp$estimate

— akashrajkn
সূত্র

তা কি হওয়া উচিত library(fitdistrplus)?

— শান

@ শান হ্যাঁ, সেই অনুসারে প্রতিক্রিয়া সম্পাদনা করছেন

— কেভিন এল কিগুলি

মনে রাখবেন যে library(actuar)এই কাজ করার জন্য কলটি প্রয়োজনীয়।

— jsta

এ ক্ষেত্রে এফপি $ অনুমান ["আকৃতি"] কী উপস্থাপন করে? এটি সম্ভবত অনুমান আলফা? নাকি বেটা?

— অ্যালবার্ট হেন্ডরিক্স