কীভাবে এই বিজোড় আকৃতির বিতরণটির মডেল করবেন (প্রায় বিপরীত-জে)


25

নীচে প্রদর্শিত আমার নির্ভরশীল পরিবর্তনশীল আমার জানা কোনও স্টক বিতরণে ফিট করে না। লিনিয়ার রিগ্রেশন কিছুটা অ-স্বাভাবিক, ডান-স্কিউড অবশিষ্টাংশ উত্পাদন করে যা বেআইনী উপায়ে ওয়াইডের (2 য় চক্রান্ত) সম্পর্কিত। রূপান্তরকরণের জন্য কোনও পরামর্শ বা সর্বাধিক বৈধ ফলাফল এবং সর্বোত্তম ভবিষ্যদ্বাণীপূর্ণ নির্ভুলতা পেতে অন্য উপায়? সম্ভব হলে আমি 5 টি মান (উদাহরণস্বরূপ, 0, লো%, মেড%, হাই%, 1) কে আনাড়ি শ্রেণীবদ্ধকরণ এড়াতে চাই।

এখানে চিত্র বর্ণনা লিখুন

এখানে চিত্র বর্ণনা লিখুন


7
আপনি এই ডেটা এবং কোথা থেকে এসেছেন সে সম্পর্কে আমাদের বলার অপেক্ষা রাখে না: কোনও কিছু এমন বিতরণকে আটকে রেখেছে যা স্বাভাবিকভাবে ব্যবধান ছাড়িয়ে যায় । এটি সম্ভব যে আপনি কিছু পরিমাপ পদ্ধতি বা পরিসংখ্যান পদ্ধতি ব্যবহার করেছেন যা আপনার ডেটার জন্য উপযুক্ত নয়। পরিশীলিত বিতরণ-ফিটিং কৌশলগুলি, ননলাইনার পুনঃপ্রকাশ, বিনিং ইত্যাদির সাহায্যে এ জাতীয় ভুলটি ছুঁড়ে ফেলার চেষ্টা করা কেবল ত্রুটিটিকে আরও জটিল করে তুলবে, সুতরাং সমস্যাটি পুরোপুরি ছড়িয়ে দেওয়া ভাল লাগবে। [0,1]
whuber

2
@ হুইবার - একটি ভাল চিন্তাভাবনা, তবে পরিবর্তনশীলটি একটি জটিল বুয়্যারাক্র্যাটিক সিস্টেমের মাধ্যমে তৈরি করা হয়েছিল যা দুর্ভাগ্যক্রমে পাথর দ্বারা স্থাপন করা হয়েছে। আমি এখানে জড়িত ভেরিয়েবলের প্রকৃতি প্রকাশ করার স্বাধীনতা পাচ্ছি না।
রোল্যান্ডো 2

1
ঠিক আছে, এটি একটি শট মূল্য ছিল। আমি ভাবছি যে ডেটা পরিবর্তন করার পরিবর্তে, আপনি এখনও রিগ্রেশন করার জন্য এমএল পদ্ধতিতে ক্ল্যাম্পিং প্রক্রিয়াটি স্বীকৃতি দিতে চাইতে পারেন: এটি বাম- এবং ডান-সেন্সরযুক্ত উভয়ই ডেটা হিসাবে দেখার অনুরূপ হবে ।
whuber

ছোট পরামিতি ঐক্য চেয়ে সঙ্গে বিটা বিতরণ চেষ্টা করুন, en.wikipedia.org/wiki/File:Beta_distribution_pdf.svg
Alecos Papadopoulos

2
এই ধরণের বাথটাব বা ইউ-আকারের বিতরণ ম্যাগাজিনের পাঠকদের ক্ষেত্রে সাধারণ যেখানে অনেক লোক কোনও প্রকাশনার একক সংখ্যা যেমন, কোনও ডাক্তারের অফিসে পড়বেন বা অন্যথায় গ্রাহকরা আছেন যারা প্রতিটি ইস্যুটিকে পাঠকদের বিমুগ্ধ করে দেখেন between বেশ কয়েকটি মন্তব্য এবং প্রতিক্রিয়া সম্ভাব্য সমাধান হিসাবে বিটা বিতরণকে ইঙ্গিত করেছে। আমি সাহিত্যের সাথে বেটা-বাইনোমিয়ালকে আরও বেশি উপযুক্ত বিকল্প হিসাবে চিহ্নিত করি।
মাইক হান্টার

উত্তর:


47

সেন্সরযুক্ত রিগ্রেশন পদ্ধতিগুলি এই জাতীয় ডেটা পরিচালনা করতে পারে। তারা ধরে অবশিষ্টাংশগুলি সাধারণ রৈখিক প্রতিরোধের মতো আচরণ করে তবে তাদের পরিবর্তন করা হয়েছে

  1. (বাম সেন্সরিং): নিম্ন প্রান্তিকের চেয়ে ছোট ছোট সমস্ত মান, যা তথ্য থেকে পৃথক, (তবে এক থেকে অন্য ক্ষেত্রে পরিবর্তিত হতে পারে) এর পরিমাণ নির্ধারণ করা হয়নি; এবং / অথবা

  2. (ডান সেন্সরিং): উচ্চ থ্রেশহোল্ডের চেয়ে সমস্ত মান বড়, যা তথ্য থেকে পৃথক (তবে এক ক্ষেত্রে থেকে অন্য ক্ষেত্রে পরিবর্তিত হতে পারে) পরিমাণ মঞ্জুর হয়নি।

"পরিমাণযুক্ত নয়" এর অর্থ আমরা জানি যে কোনও মান তার প্রান্তিকের নীচে (বা উপরে) পড়ে বা না, তবে সবই।

ফিটিং পদ্ধতিগুলি সাধারণত সর্বাধিক সম্ভাবনা ব্যবহার করে। যখন ভেক্টর এক্স এর সাথে সম্পর্কিত প্রতিক্রিয়া মডেলটি ফর্মটিতে থাকবেYX

YXβ+ε

IID সঙ্গে একটি সাধারণ বিতরণ থাকার এফ σ সঙ্গে পিডিএফ σ (যেখানে σ অজানা "উত্পাত পরামিতি" হয়), তারপর - সেন্সর অনুপস্থিতিতে - পর্যবেক্ষণ লগ সম্ভাবনা ( এক্স আমি , Y আমি ) হয়εFσfσσ(xi,yi)

Λ=i=1nlogfσ(yixiβ).

বর্তমান সেন্সর সঙ্গে আমরা তিন মধ্যে মামলা ভাগ করতে পারি (সম্ভবত খালি) ক্লাস: ইনডেক্স জন্য থেকে এন 1 , Y আমি ধারণ নিম্ন থ্রেশহোল্ড মূল্যবোধ ও প্রতিনিধিত্ব বাম সেন্সর ডেটা; সূচকগুলির জন্য i = n 1 + 1 থেকে n 2 , y আমি পরিমাণযুক্ত; এবং বাকী সূচকগুলির জন্য, y আমি উপরের প্রান্তিক মানগুলি ধারণ করে এবং ডান সেন্সর উপস্থাপন করিi=1n1yii=n1+1n2yiyiডেটা। লগের সম্ভাবনাটি আগের মতোই পাওয়া যায়: এটি সম্ভাবনার পণ্যগুলির লগ log

Λ=i=1n1logFσ(yixiβ)+i=n1+1n2logfσ(yixiβ)+i=n2+1nlog(1Fσ(yixiβ)).

এটি একটি ফাংশন হিসাবে সংখ্যাগতভাবে সর্বাধিক(β,σ)

আমার অভিজ্ঞতায়, অর্ধেকেরও কম ডেটা সেন্সর করা হলে এই জাতীয় পদ্ধতিগুলি ভালভাবে কাজ করতে পারে; অন্যথায়, ফলাফলগুলি অস্থির হতে পারে।


Rওএলএস এবং সেন্সর করা ফলাফলগুলি প্রচুর ডেটা সহ কীভাবে পৃথক হতে পারে ( উদাহরণস্বরূপ ) censRegপ্যাকেজটি ব্যবহার করে এখানে একটি সাধারণ উদাহরণ । এটি গুণগতভাবে প্রশ্নের ডেটা পুনরুত্পাদন করে।

library("censReg")
set.seed(17)
n.data <- 2960
coeff  <- c(-0.001, 0.005)
sigma  <- 0.005
x      <- rnorm(n.data, 0.5)
y      <- as.vector(coeff %*% rbind(rep(1, n.data), x) + rnorm(n.data, 0, sigma))
y.cen           <- y
y.cen[y < 0]    <- 0
y.cen[y > 0.01] <- 0.01
data = data.frame(list(x, y.cen))

0.0050.0010.005

আসুন উভয় ব্যবহার করুন lmএবং censRegএকটি লাইন মাপসই:

fit <- censReg(y.cen ~ x, data=data, left=0.0, right=0.01)
summary(fit)

এই সেন্সর রিগ্রেশন এর ফলাফল, কর্তৃক প্রদত্ত print(fit)হয়

(Intercept)           x       sigma 
  -0.001028    0.004935    0.004856 

0.0010.0050.005

fit.OLS <- lm(y.cen ~ x, data=data)
summary(fit.OLS)

OLS ঔজ্জ্বল্যের প্রেক্ষাপটে হইয়া, কর্তৃক প্রদত্ত print(fit.OLS)হল,

(Intercept)            x  
   0.001996     0.002345  

summary0.002864

তুলনার জন্য, আসুন পরিমাণের ডেটাতে রিগ্রেশন সীমাবদ্ধ করি:

fit.part <- lm(y[0 <= y & y <= 0.01] ~ x[0 <= y & y <= 0.01])
summary(fit.part)

(Intercept)  x[0 <= y & y <= 0.01]  
   0.003240               0.001461  

আরো খারাপ!

কয়েকটি ছবি পরিস্থিতিটির সংক্ষিপ্তসার দেয়।

lineplot <- function() {
  abline(coef(fit)[1:2], col="Red", lwd=2)
  abline(coef(fit.OLS), col="Blue", lty=2, lwd=2)
  abline(coef(fit.part), col=rgb(.2, .6, .2), lty=3, lwd=2)
}
par(mfrow=c(1,4))
plot(x,y, pch=19, cex=0.5, col="Gray", main="Hypothetical Data")
lineplot()
plot(x,y.cen, pch=19, cex=0.5, col="Gray", main="Censored Data")
lineplot()
hist(y.cen, breaks=50, main="Censored Data")
hist(y[0 <= y & y <= 0.01], breaks=50, main="Quantified Data")

প্লট

"হাইপোথিটিকাল ডেটা" এবং "সেন্সর করা ডেটা" প্লটগুলির মধ্যে পার্থক্য হ'ল নীচের সমস্ত y- মানগুলি00.01 পূর্বের এর পরের প্লটটি উত্পাদনের জন্য তাদের নিজ নিজ দোরগোড়ায় সরানো হয়েছে। ফলস্বরূপ, আপনি সেন্সর করা ডেটা নীচে এবং উপরে বরাবর সারিবদ্ধভাবে দেখতে পারেন।

Y0.00320,0037


দুর্দান্ত উত্তর (+1)। যদি আমরা দুটি সেন্সরিং স্পকিগুলি দৃশ্যত সরিয়ে ফেলতে পারি, তবে আমার কাছে মনে হয় নির্ভরশীল ভেরিয়েবলের একটি তাত্পর্যপূর্ণ বিতরণের কাছাকাছি কিছু রয়েছে, যেন অন্তর্নিহিত ডেটা কোনও প্রক্রিয়ার দৈর্ঘ্য ছিল। এটি কি আমলে নেওয়ার মতো কিছু?
ব্যবহারকারী 60

@ ব্যবহারকারী 603 আমি গাউসির উপরের বাহুর অংশের সাথে পরিমাণযুক্ত মানগুলি অনুকরণ করেছিলাম, আসলে :-)। আমাদের এখানে যত্ন নিতে হবে, কারণ সম্পর্কিত সম্ভাব্যতা মডেলটি অবশিষ্টাংশের সাথে সম্পর্কিত , প্রতিক্রিয়াশীল ভেরিয়েবলের সাথে নয়। যদিও এটি কিছুটা জটিল, কিছু অনুমানমূলক বিতরণের উপযুক্ততার সদ্ব্যবহারের জন্য কেউ সেন্সরকৃত অবশিষ্ট প্লট এবং এমনকি সেন্সরযুক্ত সম্ভাবনা প্লট তৈরি করতে পারে।
whuber

আমার বক্তব্যটি হ'ল দ্বিগুণ সেন্সরযুক্ত গাউসির সাথে তিনি সেন্সর করা মানগুলির হিস্টোগ্রামটি কিছুটা সমতল হওয়া উচিত, তবে আমরা 0 থেকে দূরে সরে যাওয়ার সাথে সেগুলি আলতো করে হ্রাস পাচ্ছে বলে মনে হচ্ছে
user

1
@ ইউজার 603 আহা, না, সেটাই নয়: পরিমাণযুক্ত মানগুলির হিস্টোগ্রামটি একবার দেখুন। তারা প্রায় রৈখিকভাবে নীচের দিকে opeালু প্রদর্শিত হবে ঠিক যেমন প্রশ্নের মধ্যে।
whuber

2
আমি আমার ডেটাসেটে সেন্সরড রিগ্রেশন চেষ্টা করেছিলাম এবং ফলাফলগুলি ওএলএসের চেয়ে আরও ভাল ক্রসওয়েটেড হয়। আমার টুলকিট - thx এ একটি দুর্দান্ত সংযোজন।
Rolando2

9

মানগুলি কি সর্বদা 0 এবং 1 এর মধ্যে থাকে?

যদি তা হয় তবে আপনি বিটা বিতরণ এবং বিটা রিগ্রেশন বিবেচনা করতে পারেন।

তবে আপনার ডেটা বাড়ে এমন প্রক্রিয়াটির মাধ্যমে ভাবতে ভুলবেন না। আপনি একটি 0 এবং 1 স্ফীত মডেলটিও করতে পারেন (0 টি স্ফীত মডেলগুলি সাধারণ, আপনার নিজের দ্বারা সম্ভবত 1 টি স্ফীত হওয়া প্রয়োজন)। বড় পার্থক্যটি হ'ল যদি সেই স্পাইকগুলি সঠিক সংখ্যার 0 এবং 1 এর বৃহত সংখ্যক প্রতিনিধিত্ব করে বা 0 এবং 1 এর নিকটবর্তী মানগুলি উপস্থাপন করে।

স্থানীয় পরিসংখ্যানবিদদের সাথে পরামর্শ করা ভাল (কোনও প্রকাশ না করার চুক্তির সাথে যাতে আপনি কোথা থেকে ডেটা আসে সে সম্পর্কে বিস্তারিত আলোচনা করতে পারেন) সর্বোত্তম পন্থাটি কার্যকর করার জন্য।


2
01

হ্যাঁ, সর্বদা 0% থেকে 1% এর মধ্যে থাকে ... এবং এই স্পাইকগুলি আসলে 0% এবং 1% এ রয়েছে। শূন্য- বা শূন্য-ও-এক-স্ফীত মডেলগুলি কি এই জাতীয় অ-গণনা ডেটার জন্য প্রযোজ্য?
রোল্যান্ডো 2

1
এখানে একটি শূন্য স্ফীত সাধারণ, তবে এটি এখানে প্রযোজ্য নয়।
পিটার ফ্লুম - মনিকা পুনরায়

যথাযথ 0 এবং 1 এর সাথে কিন্তু এর মধ্যে অবিচ্ছিন্ন মনে হয় যে এই অঞ্চলের বাইরে 0 বা 1 এর বাইরে ভৌসের সাথে অন্তর্নিহিত ধারাবাহিক বিতরণ হতে পারে This এটি একটি দ্বিগুণ সেন্সরযুক্ত মামলা হবে এবং মডেলগুলি এই ধারণাটি ব্যবহার করে উপযুক্ত হতে পারে।
গ্রেগ তুষার

4

সঙ্গে নির্ঘণ্ট সালে গ্রেগ স্নো পরামর্শ শুনেছি বিটা মডেলের পাশাপাশি এমন পরিস্থিতিতে উপযোগী (দেখুন একটি বিন্দু, ট্রিম বিন্দুগুলি & verkuilen, 2006, একটি উন্নততর লেবু নিষ্পেষণকারী ), সেইসাথে সমাংশক রিগ্রেশন ( Bottai এট আল।, 2010 ), কিন্তু এই মনে হয় এত উচ্চারিত মেঝে এবং সিলিং এর প্রভাবগুলি অনুপযুক্ত হতে পারে (বিশেষত বিটা রিগ্রেশন)।

অন্য বিকল্পটি সেন্সরড রিগ্রেশন মডেলগুলির বিশেষত বিবেচনা করা হবে, বিশেষত টোবিট মডেল , যেখানে আমরা পর্যবেক্ষণকৃত ফলাফলগুলি কিছু অন্তর্নিহিত সুপ্ত পরিবর্তনশীল দ্বারা উত্পন্ন বলে বিবেচনা করি যা ধারাবাহিক (এবং সম্ভবত স্বাভাবিক)। আমি আপনার হিস্টোগ্রামের ভিত্তিতে এই অন্তর্নিহিত অবিচ্ছিন্ন মডেলটি যুক্তিসঙ্গত বলে বলতে যাচ্ছি না, তবে আপনি ডিস্ট্রিবিউশনের (তলটিকে উপেক্ষা করে) উপকরণের নীচের মানগুলিতে উচ্চ ঘনত্ব এবং ধীরে ধীরে কার্টেলগুলি উচ্চতর করার জন্য এটির জন্য কিছু সমর্থন পেতে পারেন মান।

ভাগ্য ভাল যদিও, যে সেন্সরিং নাটকীয় এটি চরম বালতি মধ্যে অনেক দরকারী তথ্য পুনরুদ্ধার কল্পনা করা কঠিন। আমার কাছে দেখতে দেখতে আপনার প্রায় অর্ধেক নমুনা মেঝে এবং সিলিংয়ের বাক্সের মধ্যে পড়ে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.