বিনাশিত তথ্যের তৃতীয় কোয়ার্টাল কীভাবে অনুমান করা যায়?


12

তৃতীয় কোয়ার্টিটাল নির্ধারণের জন্য কি কোনও প্রযুক্তিগত কৌশল আছে যদি এটি একটি উন্মুক্ত ব্যবধানের সাথে সম্পর্কিত যা জনসংখ্যার এক চতুর্থাংশের বেশি থাকে (সুতরাং আমি অন্তরটি বন্ধ করতে পারি না এবং আদর্শ সূত্রটি ব্যবহার করতে পারি না)?

সম্পাদন করা

আমি যদি কিছু ভুল বুঝে থাকি তবে আমি কমবেশি সম্পূর্ণ প্রসঙ্গটি সরবরাহ করব। আমার কাছে একটি টেবিলের সাথে দুটি কলামযুক্ত ডেটা সাজানো আছে এবং বলুন, 6 টি সারি। প্রতিটি কলামের সাথে একটি অন্তর অন্তর্ভুক্ত হয় (প্রথম কলামে) এবং জনসংখ্যার একটি পরিমাণ যা সেই অন্তরটির সাথে "অন্তর্ভুক্ত"। শেষ ব্যবধানটি উন্মুক্ত এবং জনসংখ্যার 25% এরও বেশি অন্তর্ভুক্ত। সমস্ত অন্তর (শেষ ব্যতীত) একই পরিসীমা আছে।

নমুনা ডেটা (উপস্থাপনের জন্য স্থানান্তরিত):

Column 1: (6;8),(8;10),(10;12),(12;14),(14;16),(16;∞)
Column 2:    51,    65,     68,     82,     78,   182 

প্রথম কলামটি আয়ের স্তরের ব্যাপ্তি হিসাবে ব্যাখ্যা করতে হয়। দ্বিতীয়টি হ'ল কর্মীদের সংখ্যা হিসাবে ব্যাখ্যা করা হবে যার আয় অন্তরভুক্ত।

আমি যে আদর্শ সূত্রের বিষয়ে ভাবছি তা।Q3=xQ3+3N4i=1k1ninQ3rQ3


বিনডযুক্ত ডেটার সাথে কোয়ান্টাইলগুলি অনুমান করার চেষ্টা করার সময় একটি সাধারণ অনুমিতি হ'ল বিনয়ের মধ্যে অভিন্নতা ধরে নেওয়া। কিন্তু যখন আপনি কীভাবে ডেটা বিতরণ করার সম্ভাবনা সম্পর্কে কিছু জানেন (যেমন আয় হিসাবে, যা সঠিক স্কিউ হয়) যে অনুভূতিগুলি প্রতিফলিত করে যে জ্ঞানটি আরও ভাল হতে পারে। অন্য বিকল্পটি হ'ল এটি মসৃণ, এবং তারপরে ডেটা মসৃণ করে (যদিও কে। ডি। & আবার বিনগুলিতে পুনরায় বিতরণ করুন] তারপরে সেখান থেকে কোয়ান্টাইলগুলি অনুমান করুন।
গ্লেন_বি -রিনস্টেট মনিকা

উত্তর:


16

আপনাকে কিছু বিতরণকারী মডেলের সাথে এই বিন্যাসিত ডেটা ফিট করতে হবে , কারণ এটি কেবল উপরের চতুর্দিকে প্রবেশের একমাত্র উপায়।

একজন মডেল

সংজ্ঞা অনুসারে, এই জাতীয় মডেল একটি ক্যাডল্যাগ ফাংশন থেকে উঠেছে । সম্ভাব্যতা এটা কোনো ব্যবধান নির্ধারণ হয় , আপনি একটি (ভেক্টর দ্বারা সূচীবদ্ধ সম্ভব ফাংশন একটি পরিবার সত্য বলিয়া মানিয়া লওয়া প্রয়োজন) প্যারামিটার। মাপসই করার , Ass অনুমান করে যে নমুনাটি নির্দিষ্ট (তবে অজানা) দ্বারা বর্ণিত জনসংখ্যার থেকে এলোমেলোভাবে এবং স্বাধীনভাবে নির্বাচিত লোকদের সংকলনের সংক্ষিপ্তসার করে, নমুনার সম্ভাবনা (বা সম্ভাবনা , ) ব্যক্তিটির পণ্য সম্ভাব্যতা। উদাহরণস্বরূপ, এটি সমান হবে0 1 ( a , b ] F ( b ) - F ( a ) θ { F θ } F θ LF01(a,b]F(b)F(a)θ{Fθ}FθL

L(θ)=(Fθ(8)Fθ(6))51(Fθ(10)Fθ(8))65(Fθ()Fθ(16))182

যেহেতু জন লোক , সম্ভাব্যতা ইত্যাদি রয়েছে।51Fθ(8)Fθ(6)65Fθ(10)Fθ(8)

উপাত্তে মডেল ফিটিং

সর্বাধিক সম্ভাবনা অনুমান এর একটি মান যা maximizes হয় (অথবা equivalently, লগারিদম )।θLL

আয় বিতরণগুলি প্রায়শই লগনরমাল বিতরণগুলির দ্বারা মডেল করা হয় (উদাহরণস্বরূপ, http://gdrs.sourceforge.net/docs/PoleStar_TechNote_4.pdf )। লেখা , lognormal ডিস্ট্রিবিউশন এর পরিবারθ=(μ,σ)

F(μ,σ)(x)=12π(log(x)μ)/σexp(t2/2)dt.

এই পরিবারের (এবং আরও অনেকের) পক্ষে সংখ্যাগতভাবে অপ্টিমাইজ করা সোজা is উদাহরণস্বরূপ, মধ্যে আমরা গনা একটি ফাংশন লিখতে হবে এবং তারপর নিখুত, কারণ সর্বোচ্চ সর্বোচ্চ সঙ্গে সমানুপাতিক নিজেই এবং (সাধারণত) গণনা করা সহজ এবং এর সাথে কাজ করার জন্য সংখ্যাগতভাবে আরও স্থিতিশীল:LRlog(L(θ))log(L)Llog(L)

logL <- function(thresh, pop, mu, sigma) {
  l <- function(x1, x2) ifelse(is.na(x2), 1, pnorm(log(x2), mean=mu, sd=sigma)) 
                        - pnorm(log(x1), mean=mu, sd=sigma)
  logl <- function(n, x1, x2)  n * log(l(x1, x2))
  sum(mapply(logl, pop, thresh, c(thresh[-1], NA)))
}

thresh <- c(6,8,10,12,14,16)
pop <- c(51,65,68,82,78,182)
fit <- optim(c(0,1), function(theta) -logL(thresh, pop, theta[1], theta[2]))

এই উদাহরণে সমাধানটি হ'ল in , পাওয়া গেছে ।θ=(μ,σ)=(2.620945,0.379682)fit$par

মডেল অনুমানগুলি পরীক্ষা করা হচ্ছে

আমাদের অন্ততপক্ষে এটি ধরে নেওয়া লগনরমালটির সাথে কতটা ভালভাবে খাপ খায় তা পরীক্ষা করা দরকার, তাই আমরা গণনা করার জন্য একটি ফাংশন লিখি :F

predict <- function(a, b, mu, sigma, n) {
  n * ( ifelse(is.na(b), 1, pnorm(log(b), mean=mu, sd=sigma)) 
        - pnorm(log(a), mean=mu, sd=sigma) )

লাগানো বা "পূর্বাভাস" বিন জনসংখ্যা পেতে এটি ডেটা প্রয়োগ করা হয়:

pred <- mapply(function(a,b) predict(a,b,fit$par[1], fit$par[2], sum(pop)), 
               thresh, c(thresh[-1], NA))

এই প্লটগুলির প্রথম সারিতে দেখানো হয়েছে, আমরা ডেটাগুলির হিস্টোগ্রামগুলি এবং দৃশ্যমানভাবে তাদের তুলনা করার জন্য পূর্বাভাস আঁকতে পারি:

Histograms

তাদের তুলনা করতে, আমরা একটি চি-স্কোয়ার পরিসংখ্যান গণনা করতে পারেন। এটি সাধারণত তাত্পর্য নির্ধারণের জন্য চি-স্কোয়ার বিতরণকে উল্লেখ করা হয় :

chisq <- sum((pred-pop)^2 / pred)
df <- length(pop) - 2
pchisq(chisq, df, lower.tail=FALSE)

"পি-মান" যথেষ্ট পরিমাণে অনেক লোককে মনে করে যে ভাল নয় make প্লটগুলির দিকে তাকালে, সমস্যাটি স্পষ্টতই সর্বনিম্ন বিনের দিকে দৃষ্টি নিবদ্ধ করে । সম্ভবত নিম্ন টার্মিনাসটি শূন্য হওয়া উচিত ছিল? যদি কোনও অনুসন্ধানের পদ্ধতিতে আমরা থেকে চেয়ে কম কিছু হ্রাস করি তবে আমরা প্লটের নীচের সারিতে প্রদর্শিত ফিটটি অর্জন করব। চি-স্কোয়ার পি-মানটি এখন , যা ইঙ্গিত (অনুমানমূলকভাবে, কারণ আমরা খাঁটিভাবে এখন একটি অনুসন্ধান মোডে রয়েছি) যে এই পরিসংখ্যানটি ডেটা এবং ফিটের মধ্যে কোনও উল্লেখযোগ্য পার্থক্য খুঁজে পায় না।0.008768630.40

কোয়ান্টাইলগুলি অনুমান করার জন্য ফিট ব্যবহার করা

যদি আমরা স্বীকার করি, তবে, (1) আয়ের পরিমাণ প্রায় লগন্যাল বিতরণ করা হয় এবং (2) আয়ের নিম্ন সীমাটি (বলুন ) এর চেয়ে কম হয় , তবে সর্বাধিক সম্ভাবনা অনুমান = । এই পরামিতিগুলি ব্যবহার করে আমরা পার্সেন্টাইল প্রাপ্ত করতে বিপরীত করতে পারি :3 ( μ , σ ) ( 2.620334 , 0.405454 ) এফ 75 তম63(μ,σ)(2.620334,0.405454)F75th

exp(qnorm(.75, mean=fit$par[1], sd=fit$par[2]))

মান । (যদি আমরা প্রথম নিম্ন সীমাটি থেকে না পরিবর্তন করে থাকি তবে আমরা পরিবর্তে ))6 3 17.7618.066317.76

এই পদ্ধতিগুলি এবং এই কোডটি সাধারণভাবে প্রয়োগ করা যেতে পারে। যদি তাত্পর্যপূর্ণ হয় তবে তৃতীয় চতুর্থাংশের কাছাকাছি একটি আস্থার ব্যবধান গণনা করার জন্য সর্বাধিক সম্ভাবনার তত্ত্বটি আরও কাজে লাগানো যেতে পারে।


ওহ ধন্যবাদ! আমি অবশ্যই স্বীকার করতে হবে যে সমাধানের জন্য এই জাতীয় উন্নত (কমপক্ষে আমার জন্য) যন্ত্রপাতি ব্যবহার করা হবে বলে আমি আশা করি না।
এডিড

যন্ত্রপাতিটি উন্নত বা পরিশীলিত হতে হবে না, তবে যা যা করা উচিত তা এই উদাহরণের একই সাধারণ লাইনগুলি অনুসরণ করা উচিত: আয় বন্টন সম্পর্কে কিছু ধারণা করা, গাণিতিক মডেলটির জন্য উপযুক্তভাবে ব্যবহার করুন, যুক্তিযুক্ততার জন্য মডেলটি পরীক্ষা করুন এবং এটি যদি হয় একটি যুক্তিসঙ্গত ফিট, কোয়ার্টিটাল গণনা করতে এটি ব্যবহার করুন। পথে, গ্রাফিকাল পদ্ধতিগুলি ব্যবহার করুন কারণ তারা আকর্ষণীয় নিদর্শনগুলি প্রকাশ করতে পারে। (এখানে, স্বার্থে lognormality থেকে একটি আপাত দুর্ভিক্ষ আছে যে কম আয় বন্ধনী: আমি ভাবছি যে কেন ঘটে এবং কি এটা এই জনসংখ্যা সম্পর্কে বলার পারে।)
whuber

+1, দুর্দান্ত উত্তর। দেখে মনে হচ্ছে আমাকে আর শিখতে হবে।
ডেভ

8

একটি মন্তব্যের জন্য খুব দীর্ঘ:

whubers এর উত্তর যে কোনও হিসাবে ভাল, কিন্তু তিনি তার লগ-নরমাল মডেল ডান- skewness ধরে নিতে। এটি সাধারণ জনগোষ্ঠীর আয়ের ক্ষেত্রে বাস্তববাদী হতে পারে তবে নির্দিষ্ট গ্রেডে একক নিয়োগকর্তার আয়ের জন্য এটি নাও হতে পারে।

68645017.5

8017.3

17


1
16
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.