আপনাকে কিছু বিতরণকারী মডেলের সাথে এই বিন্যাসিত ডেটা ফিট করতে হবে , কারণ এটি কেবল উপরের চতুর্দিকে প্রবেশের একমাত্র উপায়।
একজন মডেল
সংজ্ঞা অনুসারে, এই জাতীয় মডেল একটি ক্যাডল্যাগ ফাংশন থেকে উঠেছে । সম্ভাব্যতা এটা কোনো ব্যবধান নির্ধারণ হয় , আপনি একটি (ভেক্টর দ্বারা সূচীবদ্ধ সম্ভব ফাংশন একটি পরিবার সত্য বলিয়া মানিয়া লওয়া প্রয়োজন) প্যারামিটার। মাপসই করার , Ass অনুমান করে যে নমুনাটি নির্দিষ্ট (তবে অজানা) দ্বারা বর্ণিত জনসংখ্যার থেকে এলোমেলোভাবে এবং স্বাধীনভাবে নির্বাচিত লোকদের সংকলনের সংক্ষিপ্তসার করে, নমুনার সম্ভাবনা (বা সম্ভাবনা , ) ব্যক্তিটির পণ্য সম্ভাব্যতা। উদাহরণস্বরূপ, এটি সমান হবে0 1 ( a , b ] F ( b ) - F ( a ) θ { F θ } F θ Lএফ01( ক , খ ]এফ( খ ) - এফ( ক )θ। চθ}এফθএল
এল ( θ ) = ( চθ( 8 ) - এফθ( 6 ) )51( চθ( 10 ) - এফθ( 8 ) )65⋯ ( চθ( ∞ ) - এফθ( 16 ) )182
যেহেতু জন লোক , সম্ভাব্যতা ইত্যাদি রয়েছে।51এফθ( 8 ) - এফθ( 6 )65Fθ(10)−Fθ(8)
উপাত্তে মডেল ফিটিং
সর্বাধিক সম্ভাবনা অনুমান এর একটি মান যা maximizes হয় (অথবা equivalently, লগারিদম )।θLL
আয় বিতরণগুলি প্রায়শই লগনরমাল বিতরণগুলির দ্বারা মডেল করা হয় (উদাহরণস্বরূপ, http://gdrs.sourceforge.net/docs/PoleStar_TechNote_4.pdf )। লেখা , lognormal ডিস্ট্রিবিউশন এর পরিবারθ=(μ,σ)
F(μ,σ)(x)=12π−−√∫(log(x)−μ)/σ−∞exp(−t2/2)dt.
এই পরিবারের (এবং আরও অনেকের) পক্ষে সংখ্যাগতভাবে অপ্টিমাইজ করা সোজা is উদাহরণস্বরূপ, মধ্যে আমরা গনা একটি ফাংশন লিখতে হবে এবং তারপর নিখুত, কারণ সর্বোচ্চ সর্বোচ্চ সঙ্গে সমানুপাতিক নিজেই এবং (সাধারণত) গণনা করা সহজ এবং এর সাথে কাজ করার জন্য সংখ্যাগতভাবে আরও স্থিতিশীল:LR
log(L(θ))log(L)Llog(L)
logL <- function(thresh, pop, mu, sigma) {
l <- function(x1, x2) ifelse(is.na(x2), 1, pnorm(log(x2), mean=mu, sd=sigma))
- pnorm(log(x1), mean=mu, sd=sigma)
logl <- function(n, x1, x2) n * log(l(x1, x2))
sum(mapply(logl, pop, thresh, c(thresh[-1], NA)))
}
thresh <- c(6,8,10,12,14,16)
pop <- c(51,65,68,82,78,182)
fit <- optim(c(0,1), function(theta) -logL(thresh, pop, theta[1], theta[2]))
এই উদাহরণে সমাধানটি হ'ল in , পাওয়া গেছে ।θ=(μ,σ)=(2.620945,0.379682)fit$par
মডেল অনুমানগুলি পরীক্ষা করা হচ্ছে
আমাদের অন্ততপক্ষে এটি ধরে নেওয়া লগনরমালটির সাথে কতটা ভালভাবে খাপ খায় তা পরীক্ষা করা দরকার, তাই আমরা গণনা করার জন্য একটি ফাংশন লিখি :F
predict <- function(a, b, mu, sigma, n) {
n * ( ifelse(is.na(b), 1, pnorm(log(b), mean=mu, sd=sigma))
- pnorm(log(a), mean=mu, sd=sigma) )
লাগানো বা "পূর্বাভাস" বিন জনসংখ্যা পেতে এটি ডেটা প্রয়োগ করা হয়:
pred <- mapply(function(a,b) predict(a,b,fit$par[1], fit$par[2], sum(pop)),
thresh, c(thresh[-1], NA))
এই প্লটগুলির প্রথম সারিতে দেখানো হয়েছে, আমরা ডেটাগুলির হিস্টোগ্রামগুলি এবং দৃশ্যমানভাবে তাদের তুলনা করার জন্য পূর্বাভাস আঁকতে পারি:
তাদের তুলনা করতে, আমরা একটি চি-স্কোয়ার পরিসংখ্যান গণনা করতে পারেন। এটি সাধারণত তাত্পর্য নির্ধারণের জন্য চি-স্কোয়ার বিতরণকে উল্লেখ করা হয় :
chisq <- sum((pred-pop)^2 / pred)
df <- length(pop) - 2
pchisq(chisq, df, lower.tail=FALSE)
"পি-মান" যথেষ্ট পরিমাণে অনেক লোককে মনে করে যে ভাল নয় make প্লটগুলির দিকে তাকালে, সমস্যাটি স্পষ্টতই সর্বনিম্ন বিনের দিকে দৃষ্টি নিবদ্ধ করে । সম্ভবত নিম্ন টার্মিনাসটি শূন্য হওয়া উচিত ছিল? যদি কোনও অনুসন্ধানের পদ্ধতিতে আমরা থেকে চেয়ে কম কিছু হ্রাস করি তবে আমরা প্লটের নীচের সারিতে প্রদর্শিত ফিটটি অর্জন করব। চি-স্কোয়ার পি-মানটি এখন , যা ইঙ্গিত (অনুমানমূলকভাবে, কারণ আমরা খাঁটিভাবে এখন একটি অনুসন্ধান মোডে রয়েছি) যে এই পরিসংখ্যানটি ডেটা এবং ফিটের মধ্যে কোনও উল্লেখযোগ্য পার্থক্য খুঁজে পায় না।0.00876−8630.40
কোয়ান্টাইলগুলি অনুমান করার জন্য ফিট ব্যবহার করা
যদি আমরা স্বীকার করি, তবে, (1) আয়ের পরিমাণ প্রায় লগন্যাল বিতরণ করা হয় এবং (2) আয়ের নিম্ন সীমাটি (বলুন ) এর চেয়ে কম হয় , তবে সর্বাধিক সম্ভাবনা অনুমান = । এই পরামিতিগুলি ব্যবহার করে আমরা পার্সেন্টাইল প্রাপ্ত করতে বিপরীত করতে পারি :3 ( μ , σ ) ( 2.620334 , 0.405454 ) এফ 75 তম63(μ,σ)(2.620334,0.405454)F75th
exp(qnorm(.75, mean=fit$par[1], sd=fit$par[2]))
মান । (যদি আমরা প্রথম নিম্ন সীমাটি থেকে না পরিবর্তন করে থাকি তবে আমরা পরিবর্তে ))6 3 17.7618.066317.76
এই পদ্ধতিগুলি এবং এই কোডটি সাধারণভাবে প্রয়োগ করা যেতে পারে। যদি তাত্পর্যপূর্ণ হয় তবে তৃতীয় চতুর্থাংশের কাছাকাছি একটি আস্থার ব্যবধান গণনা করার জন্য সর্বাধিক সম্ভাবনার তত্ত্বটি আরও কাজে লাগানো যেতে পারে।