আমার ডেটা লগের সাধারণ বিতরণে ফিট করে কিনা তা কীভাবে পরীক্ষা করবেন?


11

Rআমার ডেটা লগ-স্বাভাবিক বা পেরেটো বিতরণে ফিট করে কিনা তা আমি চেক করতে চাই । আমি এটা কিভাবে করতে পারি? সম্ভবত এটি ks.testকরতে আমাকে সহায়তা করতে পারে, তবে কীভাবে আমি আমার ডেটার জন্য পেরিটো বিতরণের এবং প্যারামিটারগুলি পেতে পারি?αk


শেষ প্রশ্নের জন্য এছাড়াও দেখুন stats.stackex
بدل.

উত্তর:


6

... আমি সবেমাত্র লক্ষ্য করেছি যে আপনার সেখানে 'রিগ্রেশন' ট্যাগ রয়েছে। আপনার যদি কোনও রিগ্রেশন সমস্যা থাকে তবে আপনি বিতরণের আকারটি মূল্যায়ন করতে প্রতিক্রিয়ার অবিচ্ছিন্ন বিতরণটি দেখতে পারবেন না, কারণ এটি এক্স এর ধরণের উপর নির্ভর করে। যদি আপনি কোন ধরণের রিগ্রেশন বা জিএলএম এর প্রতিক্রিয়া (y) ভেরিয়েবল কিনা তা পরীক্ষা করার বিষয়ে জিজ্ঞাসা করছেন যা পর্যবেক্ষণ জুড়ে উপায়গুলি পৃথক, এটি একটি ভিন্ন প্রশ্ন (তবে মূলত একই ধরণের বিশ্লেষণে নেমে আসে) অবশিষ্টাংশে)। এটি যদি কোনও রিগ্রেশন সমস্যা হয় তবে আপনি দয়া করে পরিষ্কার করতে পারেন। আমার উত্তরটি বর্তমানে অবিচ্ছিন্ন লগনরমাল বা পেরেটো নির্ধারণের সাথে সম্পর্কিত

আপনার বেশ কয়েকটি আলাদা প্রশ্ন আছে।

আমার ডেটা লগের সাধারণ বিতরণে ফিট করে কিনা তা কীভাবে পরীক্ষা করবেন?

লগগুলি নিন এবং একটি সাধারণ কিউকিউ প্লট করুন। আপনার উদ্দেশ্যগুলির জন্য বিতরণ পর্যাপ্ত কিনা তা দেখুন এবং দেখুন।

আমার ডেটা লগ-স্বাভাবিক বা পেরেটো বিতরণে ফিট করে কিনা তা আমি আরে চেক করতে চাই

শুরু থেকে গ্রহণ করুন যে আপনি যে বিতরণগুলি বিবেচনা করেন তার কোনওটিই সঠিক বর্ণনা নয়। আপনি একটি যুক্তিসঙ্গত মডেল খুঁজছেন। এর অর্থ হ'ল ছোট নমুনা আকারে আপনি কোনও যুক্তিসঙ্গত বিকল্প প্রত্যাখ্যান করবেন না, তবে পর্যাপ্ত নমুনা আকারের সাহায্যে আপনি সেগুলি সমস্ত প্রত্যাখ্যান করবেন। সবচেয়ে বড়, নমুনা আকারের সাথে, আপনি নিখুঁতভাবে শালীন মডেলগুলি প্রত্যাখ্যান করবেন, যখন ছোট নমুনার আকারে আপনি খারাপগুলি প্রত্যাখ্যান করবেন না।

মডেল নির্বাচনের জন্য এই জাতীয় পরীক্ষাগুলি সত্যিই দরকারী ভিত্তি নয়।

সংক্ষেপে, আপনার আগ্রহের প্রশ্ন - "এই ডেটাটির জন্য একটি ভাল মডেল কী এমন, যা যথেষ্ট পরিমাণে এটি পরের অনুমানকে কার্যকর করে তুলবে?" কেবল ফিট টেস্টের সদর্থকতার দ্বারা উত্তর দেওয়া হয় না। তবে, কিছু ক্ষেত্রে ফিটের পরিসংখ্যানের সদ্ব্যবহার (তাদের ভিত্তিতে প্রত্যাখ্যানের বিধিগুলির বাইরে আসা সিদ্ধান্তের চেয়ে) কিছু ক্ষেত্রে ফিটের অভাবের নির্দিষ্ট সংক্ষিপ্তসার একটি দরকারী সংক্ষিপ্তসার সরবরাহ করতে পারে।

সম্ভবত ks.test আমাকে এটি করতে সহায়তা করতে পারে

না, প্রথম, আমি এখানে উল্লেখ করেছি এমন সমস্যা আছে এবং দ্বিতীয়টি, একটি কলমোগোরভ-স্মারনভ পরীক্ষা একটি সম্পূর্ণ নির্দিষ্ট বিতরণের জন্য পরীক্ষা a আপনার এর মধ্যে একটিও নেই।

অনেক ক্ষেত্রে, আমি কিউকিউ প্লট এবং অনুরূপ প্রদর্শনগুলির প্রস্তাব দিই। এই জাতীয় ডান স্কিউ ক্ষেত্রে আমি লগগুলি নিয়ে কাজ করার প্রবণতা রাখি (লগনোমরালটি তখন স্বাভাবিক দেখাবে, যখন একটি পেরিটো ব্যাক্তিগত দেখাবে)। যুক্তিসঙ্গত নমুনার আকারগুলিতে ডেটা তাত্পর্যপূর্ণ বা তদ্বিপরীত থেকে ডেটা প্রায় স্বাভাবিক দেখায় কিনা চাক্ষুষরূপে পার্থক্য করা শক্ত নয়। প্রথমে প্রত্যেকের কাছ থেকে কিছু প্রকৃত ডেটা পান এবং সেগুলি প্লট করুন - কমপক্ষে অর্ধ ডজন নমুনা বলুন, যাতে তারা জানেন যে আপনি কী জানেন।

নীচে একটি উদাহরণ দেখুন

আমি কীভাবে আমার ডেটার জন্য পেরেটো বিতরণের জন্য আলফা এবং কে প্যারামিটারগুলি পেতে পারি?

আপনার যদি প্যারামিটারগুলি অনুমান করার প্রয়োজন হয় তবে এমএলই ব্যবহার করুন ... তবে পেরেটো এবং লগনারমাল মধ্যে সিদ্ধান্ত নিতে এটি করবেন না।

আপনি কি বলতে পারবেন এর মধ্যে কোনটি লগনারমাল এবং কোনটি পেরেটো?

এখানে চিত্র বর্ণনা লিখুন

নোট করুন যে সাধারণ কিউকিউ প্লট (বাম কলাম) দিয়ে আমরা দেখি ডেটা সেট 1 এর লগগুলি মোটামুটি সরল রেখা দেয়, যখন ডেটা সেট 2 টি ডান স্কিউনেস দেখায়। তাত্পর্যপূর্ণ প্লটগুলির সাহায্যে ডেটা সেট 1 এর লগগুলি সূচকযুক্তের তুলনায় হালকা ডান লেজ দেখায়, যখন ডেটা সেট 2 একটি মোটামুটি সরল রেখা দেখায় (ডান লেজের মানগুলি মডেলটি সঠিক হওয়ার পরেও কিছুটা ঘুরে বেড়ায়; এটি হ'ল ভারী-লেজগুলির সাথে অস্বাভাবিক নয়; প্লটগুলি সাধারণত কী রকম দেখতে হয় তা দেখার জন্য আপনি যেটির মতো একই আকারের কয়েকটি নমুনা তৈরি করার প্রয়োজন তার এক কারণ)

কোড এই চারটি প্লট করত:

qqnorm(log(y1))
qqnorm(log(y2))
qex <- function(x) qexp((rank(x)-.375)/(length(x)+.25))
plot(qex(y1),log(y1))
plot(qex(y2),log(y2))

যদি আপনার কোনও রিগ্রেশন টাইপ সমস্যা থাকে - তবে যেখানে অন্য ভেরিয়েবলগুলির সাথে পরিবর্তনের উপায় রয়েছে, আপনি কেবলমাত্র উপযুক্ত মডেলের উপস্থিতিতে বিতরণীয় অনুমানের উপযুক্ততার মূল্যায়ন করতে পারবেন।


3

এটি অবশ্যই মডেল নির্বাচনের বিষয় , ধরে নেওয়া এই যে আপনি কেবলমাত্র আপনার ডেটা একটি মডেল বা অন্য থেকে এসেছে কিনা তা পরীক্ষা করতে চান এবং আপনার লক্ষ্য বিতরণের অসীম মাত্রিক সমুদ্রের মধ্যে সঠিক মডেলটি খুঁজে পাচ্ছে না। সুতরাং, একটি বিকল্প হ'ল এআইসি (যা সর্বনিম্ন এআইসি মান সহ মডেলগুলির পক্ষে, এবং আমি এখানে বর্ণনা করার চেষ্টা করব না) ব্যবহার করা। সিমুলেটেড ডেটা সহ নিম্নলিখিত উদাহরণটি দেখুন:

rm(list=ls())

set.seed(123)
x = rlnorm(100,0,1)

hist(x)

# Loglikelihood and AIC for lognormal model

ll1 = function(param){
if(param[2]>0) return(-sum(dlnorm(x,param[1],param[2],log=T)))
else return(Inf)
}

AIC1 = 2*optim(c(0,1),ll1)$value + 2*2

# Loglikelihood and AIC for Pareto model

dpareto=function(x, shape=1, location=1) shape * location^shape / x^(shape + 1)

ll2 = function(param){
if(param[1]>0 & min(x)> param[2]) return(-sum(log(dpareto(x,param[1],param[2]))))
else return(Inf)
}


AIC2 = 2*optim(c(1,0.01),ll2)$value + 2*2

# Comparison using AIC, which in this case favours the lognormal model.

 c(AIC1,AIC2)

1

হয়তো ফিটডিজার ()?

এখানে চিত্র বর্ণনা লিখুন

require(MASS)
hist(x, freq=F)
fit<-fitdistr(x,"log-normal")$estimate
lines(dlnorm(0:max(x),fit[1],fit[2]), lwd=3)


> fit
meanlog     sdlog 
3.8181643 0.1871289 



> dput(x)
c(52.6866903145324, 39.7511298620398, 50.0577071855833, 33.8671245370402, 
51.6325665911116, 41.1745418750494, 48.4259060939127, 67.0893697776377, 
35.5355051232044, 44.6197404834786, 40.5620805256951, 39.4265590077884, 
36.0718655240496, 56.0205581625823, 52.8039852992611, 46.2069383488226, 
36.7324212941395, 44.7998046213554, 47.9727885542368, 36.3400338997286, 
32.7514839453244, 50.6878893947656, 53.3756089181472, 39.4769689441593, 
38.5432770167907, 62.350999487007, 44.5140171935881, 47.4026606915147, 
57.3723511479393, 64.4041641945078, 51.2286815562554, 60.4921839777139, 
71.6127652225805, 40.6395409719693, 48.681036613906, 52.3489622656967, 
46.6219563536878, 55.6136160469819, 62.3003761050482, 42.7865905767138, 
50.2413659137295, 45.6327941365187, 46.5621907725798, 48.9734785224035, 
40.4828649022511, 59.4982559591637, 42.9450436744074, 66.8393386407167, 
40.7248473206552, 45.9114242834839, 34.2671010054407, 45.7569869970351, 
50.4358523486278, 44.7445606782492, 44.4173298921541, 41.7506552050873, 
34.5657344132409, 47.7099864540652, 38.1680974794929, 42.2126680994737, 
35.690599714042, 37.6748157160789, 35.0840798650981, 41.4775827114607, 
36.6503753230464, 42.7539062488003, 39.2210050689652, 45.9364763482558, 
35.3687017955285, 62.8299659875044, 38.1532612008011, 39.9183076516292, 
59.0662388169057, 47.9032427690417, 42.4419580084314, 45.785859495192, 
59.5254284342724, 47.9161476636566, 32.6868959277799, 30.1039453246766, 
37.7606323857655, 35.754797368422, 35.5239777126187, 43.7874313667592, 
53.0328404605954, 37.4550326357314, 42.7226751172495, 44.898430515261, 
59.7229655935187, 41.0701258705001, 42.1672231656919, 60.9632847841197, 
60.3690132883734, 45.6469334940722, 39.8300067022836, 51.8185235060234, 
44.908828102875, 50.8200011497451, 53.7945569828737, 65.0432670527801, 
49.0306734716282, 35.9442821219144, 46.8133296904456, 43.7514416949611, 
43.7348972849838, 57.592040060118, 48.7913517211383, 38.5555058596449
)

1
যদিও এই সমাধানটি ডেটাতে লগইনরমালের সাথে খাপ খায়, এটি ফিট কোনও ভাল কিনা বা পেরেটো আরও ভাল পছন্দ কিনা তা তা জানায় না
শুক্র
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.