সাধারণ বনাম লগনরমাল বিতরণ থেকে ডেটা নমুনাযুক্ত তুলনামূলক সম্ভাবনা গণনা করতে অ্যালগরিদম প্রয়োজন


13

আসুন ধরা যাক আপনার মানগুলির একটি সেট রয়েছে এবং আপনি জানতে চান যে এগুলি সম্ভবত গাউসীয় (সাধারণ) বিতরণ থেকে নমুনা দেওয়া হয়েছিল বা লগনরমাল বিতরণ থেকে নমুনা প্রাপ্ত হয়েছিল কিনা?

অবশ্যই, আদর্শভাবে আপনি জনসংখ্যা সম্পর্কে বা পরীক্ষামূলক ত্রুটির উত্স সম্পর্কে কিছু জানতেন, সুতরাং প্রশ্নের উত্তর দেওয়ার জন্য দরকারী অতিরিক্ত তথ্য থাকতে পারে। তবে এখানে, ধরে নিন আমাদের কাছে কেবল সংখ্যার সেট রয়েছে এবং অন্য কোনও তথ্য নেই। কোনটি বেশি সম্ভবত: গাউসিয়ান থেকে নমুনা নেওয়া বা লগনরমাল বিতরণ থেকে নমুনা নেওয়া? আর কত সম্ভাবনা আছে? আমি যা প্রত্যাশা করছি তা হল দুটি মডেলের মধ্যে নির্বাচন করার জন্য একটি অ্যালগরিদম, এবং আশা করি প্রত্যেকটির আপেক্ষিক সম্ভাবনা পরিমাণে নির্ধারণ করুন।


1
প্রকৃতি / প্রকাশিত সাহিত্যে বিতরণের উপর বিতরণকে চেষ্টা এবং বৈশিষ্ট্যযুক্ত করার জন্য এটি একটি মজাদার অনুশীলন হতে পারে। তারপরে আবার- এটি মজাদার অনুশীলনের চেয়ে বেশি কখনই হবে না। একটি গুরুতর চিকিত্সার জন্য, আপনি হয় নিজের পছন্দকে ন্যায্য প্রমাণ হিসাবে একটি তত্ত্বের সন্ধান করতে পারেন, বা পর্যাপ্ত তথ্য-ভিজ্যুয়ালাইজ করতে এবং প্রতিটি পরীক্ষার্থীর বিতরণের উপযুক্ততার সদ্ব্যবহার পরীক্ষা করতে পারেন।
জনরোস

3
যদি অভিজ্ঞতা থেকে সাধারণীকরণের বিষয়টি আমি বলব যে ইতিবাচকভাবে স্কিউড বিতরণগুলি সর্বাধিক সাধারণ ধরণের, বিশেষত প্রতিক্রিয়াশীল ভেরিয়েবলগুলির জন্য যা কেন্দ্রীয় আগ্রহের বিষয়, এবং লগমনালগুলি স্বাভাবিকের চেয়ে বেশি সাধারণ। একটি 1962 খণ্ড বিজ্ঞানী বিজ্ঞানী অনুমান করেন যে বিখ্যাত পরিসংখ্যানবিদ আইজে গুড সম্পাদিত একটি বেনাম টুকরো "ব্লগগিন্সের কার্যবিধির বিধি" অন্তর্ভুক্ত ছিল, "লগের স্বাভাবিক বিতরণ স্বাভাবিকের চেয়ে স্বাভাবিক" containing (অন্যান্য নিয়মের বেশ কয়েকটি দৃ strongly়ভাবে পরিসংখ্যানগত))
নিক কক্স

আমি আপনার প্রশ্নটি জনরস এবং অ্যানোসেটেভেজের থেকে আলাদাভাবে ব্যাখ্যা করেছি বলে মনে হচ্ছে। আমার কাছে আপনার প্রশ্নটি প্লেইন মডেল নির্বাচনের মতো মনে হচ্ছে , এটি হ'ল গণনার ক্ষেত্রে , যেখানে এম হয় স্বাভাবিক বা লগ-স্বাভাবিক বিতরণ এবং ডি হ'ল আপনার ডেটা। যদি মডেল নির্বাচন আপনার পরে না হয় তবে আপনি কি স্পষ্ট করে বলতে পারেন? P(MD)MD
লুকাস

@ লুকাশ আমার ধারণা আপনার ব্যাখ্যা আমার থেকে এতটা আলাদা নয়। উভয় ক্ষেত্রেই আপনাকে এপ্রিওরি অনুমান করা দরকার।
অচিনেস্টেভেজ

2
কেন কেবল সাধারণ সম্ভাবনা অনুপাত গণনা করা এবং লগ-স্বাভাবিকের পক্ষে যখন ব্যবহারকারীকে সতর্ক করে না?
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

উত্তর:


7

আপনি প্রতিটি বন্টন (স্বাভাবিক বা লগনরমাল) সর্বাধিক সম্ভাবনার দ্বারা ডেটাতে ফিটিং করে বিতরণ টাইপের একটি সেরা অনুমান নিতে পারেন, তারপরে প্রতিটি মডেলের অধীনে লগ-সম্ভাবনার তুলনা করুন - সর্বাধিক লগ-সম্ভাবনা সহ মডেলটি সবচেয়ে উপযুক্ত। উদাহরণস্বরূপ, আর এ:

# log likelihood of the data given the parameters (par) for 
# a normal or lognormal distribution
logl <- function(par, x, lognorm=F) {
    if(par[2]<0) { return(-Inf) }
    ifelse(lognorm,
    sum(dlnorm(x,par[1],par[2],log=T)),
    sum(dnorm(x,par[1],par[2],log=T))
    )
}

# estimate parameters of distribution of x by ML 
ml <- function(par, x, ...) {
    optim(par, logl, control=list(fnscale=-1), x=x, ...)
}

# best guess for distribution-type
# use mean,sd of x for starting parameters in ML fit of normal
# use mean,sd of log(x) for starting parameters in ML fit of lognormal
# return name of distribution type with highest log ML
best <- function(x) {
    logl_norm <- ml(c(mean(x), sd(x)), x)$value
        logl_lognorm <- ml(c(mean(log(x)), sd(log(x))), x, lognorm=T)$value
    c("Normal","Lognormal")[which.max(c(logl_norm, logl_lognorm))]
}

এখন একটি সাধারণ বিতরণ থেকে সংখ্যা উত্পন্ন করুন এবং এমএল দ্বারা একটি সাধারণ বিতরণ ফিট করুন:

set.seed(1)
x = rnorm(100, 10, 2)
ml(c(10,2), x)

উত্পাদন:

$par
[1] 10.218083  1.787379

$value
[1] -199.9697
...

সাধারণ এবং লগনরমাল বিতরণের এমএল ফিটের জন্য লগ-সম্ভাবনার তুলনা করুন:

ml(c(10,2), x)$value # -199.9697
    ml(c(2,0.2), x, lognorm=T)$value # -203.1891
best(x) # Normal

লগনরমাল বিতরণ দিয়ে চেষ্টা করুন:

best(rlnorm(100, 2.6, 0.2)) # lognormal

এন, গড় এবং এসডির উপর নির্ভর করে নিয়োগটি নিখুঁত হবে না:

> table(replicate(1000, best(rnorm(500, 10, 2))))

Lognormal    Normal 
        6       994 
> table(replicate(1000, best(rlnorm(500, 2.6, 0.2))))

Lognormal    Normal 
      999         1 

1
সাধারণ বা লগ-সাধারণ উভয়ের জন্য আপনাকে সংখ্যার দিক থেকে সর্বাধিক সম্ভাবনার প্যারামিটারের সন্ধানের প্রয়োজন হবে না (যদিও এটি দেখায় যে আপনি অন্যান্য বিতরণের তুলনায় ধারণাটি কীভাবে সাধারণীকরণ করবেন)। তা ছাড়াও খুব বুদ্ধিমান পন্থা।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

আমি সবেমাত্র আর বা সর্বাধিক সম্ভাবনার ধারণাটি ব্যবহার করেছি, সুতরাং এখানে একটি মৌলিক প্রশ্ন। আমি জানি যে আমরা এআইসি (বা বিআইসি) এর সাথে ডেটাতে বনাম বনাম কোনও সাধারণ বিতরণ ফিট করে তুলনা করতে পারি না বা উপাত্তের লগগুলির সাথে তুলনা করতে পারি না, কারণ এআইসি বা বিআইসি তুলনাযোগ্য হবে না। একটিকে এক সেট ডেটারে দুটি মডেলের ফিট করতে হবে (কোনও রূপান্তর নয়; কোনও বহিরাগত ছাড় নেই ইত্যাদি), এবং ডেটা ট্রান্সফর্ম করার সাথে তুলনা বোগাস নির্বিশেষে এআইসি বা বিআইসির পরিবর্তন হবে। এমএল কী হবে? এই তুলনা বৈধ?
হার্ভে মোটুলস্কি

আমরা উপাত্তগুলিতে সর্বোত্তম ফিটিংয়ের স্বাভাবিক এবং লগমনরমাল বিতরণ খুঁজে পাই, তারপরে ডেটাগুলি পর্যবেক্ষণের সম্ভাবনাটি গণনা করে তারা ধরে নিবে যে সেগুলি বিতরণ (সম্ভাবনা বা p(X|\theta)) থেকে। আমরা ডেটা রুপান্তর করছি না। আমরা সেই বিতরণটি মুদ্রণ করি যার জন্য ডেটা পর্যবেক্ষণের সম্ভাবনা সর্বাধিক। এই পদ্ধতির বৈধতা রয়েছে তবে এর অসুবিধেও রয়েছে যে আমরা তথ্য প্রদত্ত মডেলের সম্ভাব্যতা অনুমান করি না p(M|X), অর্থাৎ সম্ভাব্যতা যে ডেটা একটি সাধারণ বনাম লগনরমাল বিতরণ (যেমন পি (সাধারণ) = 0.1, পি (লগনরমাল) = 0.9) বায়েশিয়ান পদ্ধতির বিপরীতে।
ওয়েফারথিন

1
@ হার্ভে যথেষ্ট সত্য, তবে অপ্রাসঙ্গিক - আপনি একই তথ্যতে সাধারণ বনাম লগ-সাধারণ বিতরণ ফিট করার বিষয়ে জিজ্ঞাসা করেছিলেন , এবং এটিই উত্তর দিচ্ছে han উভয় মডেলের জন্য ফ্রি প্যারামিটারের সংখ্যা একই কারণ, এআইসি বা বিআইসির তুলনা লগ-সম্ভাবনার তুলনা কমিয়ে দেয়।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

@ অ্যানিমাহূতস এই প্রসঙ্গে বায়েশিয়ান পদ্ধতির কোনও যুক্তিসঙ্গত পূর্ব - কোনও সফ্টওয়্যার ব্যবহারকারী স্বাভাবিক বা লগ-স্বাভাবিক ডেটা ফিট করার চেষ্টা করছে এমন তুলনামূলক সম্ভাবনার অনুমানের উপর নির্ভর করে - এতটাই অবজ্ঞাপূর্ণ হতে চলেছে যে এটি একটি পদ্ধতির সাথে একই রকম ফলাফল দেবে শুধু সম্ভাবনার উপর ভিত্তি করে।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

11

M{Normal,Log-normal}X={x1,...,xN}

P(MX)P(XM)P(M).

কঠিন অংশটি প্রান্তিক সম্ভাবনা পাচ্ছে ,

P(XM)=P(Xθ,M)P(θM)dθ.

p(θM)XY={logx1,...,logxNYX,

P(XM=Log-Normal)=P(YM=Normal)i|1xi|.

P(θM)P(σ2,μM=Normal)P(M)

উদাহরণ:

P(μ,σ2M=Normal)m0=0,v0=20,a0=1,b0=100

এখানে চিত্র বর্ণনা লিখুন

মারফি (2007) (সমীকরণ 203) এর মতে , সাধারণ বিতরণের প্রান্তিক সম্ভাবনা তখন দেওয়া হয়

P(XM=Normal)=|vN|12|v0|12b0a0bnaNΓ(aN)Γ(a0)1πN/22N

aN,bN,vNP(μ,σ2X,M=Normal)

vN=1/(v01+N),mN=(v01m0+ixi)/vN,aN=a0+N2,bN=b0+12(v01m02vN1mN2+ixi2).

লগ-স্বাভাবিক বিতরণের জন্য আমি একই হাইপারপ্যারামিটার ব্যবহার করি,

P(XM=Log-normal)=P({logx1,...,logxN}M=Normal)i|1xi|.

0.1P(M=Log-normal)=0.1

এখানে চিত্র বর্ণনা লিখুন

উত্তরোত্তর এইরকম আচরণ করে:

এখানে চিত্র বর্ণনা লিখুন

N

সমীকরণগুলি প্রয়োগ করার সময়, ঘনত্বগুলির পরিবর্তে লগ-ডেনসিটিগুলির সাথে কাজ করা ভাল ধারণা হবে। তবে অন্যথায় এটি বেশ সোজা এগিয়ে হওয়া উচিত। প্লট উত্পন্ন করার জন্য আমি এখানে কোডটি ব্যবহার করেছি:

https://gist.github.com/lucastheis/6094631


4

দেখে মনে হচ্ছে আপনি বিশ্লেষকদের যারা সম্ভবত পেশাদার পরিসংখ্যানবিদ নন এবং তাদের কিউ কিউ প্লট, ঘনত্বের প্লট ইত্যাদির মতো স্ট্যান্ডার্ড অনুসন্ধানের কৌশলগুলি হওয়া উচিত যা করার জন্য প্রম্পট করার জন্য কিছু প্র্যাকমেটিকের সন্ধান করছেন sounds

যে ক্ষেত্রে আসল তথ্যগুলিতে কেবলমাত্র একটি স্বাভাবিকতা পরীক্ষা (শাপিরো-উইলক বা যাই হোক না কেন), এবং লগের রূপান্তরিত ডেটার উপর একটি, এবং যদি দ্বিতীয় পি মান উচ্চতর হয় তবে বিশ্লেষকের জন্য একটি লগ রূপান্তর ব্যবহার করে বিবেচনা করার জন্য পতাকা উত্তোলন করা উচিত ? বোনাস হিসাবে, কাঁচা এবং রূপান্তরিত ডেটার ঘনত্ব লাইন প্লট এবং কিউকিউনর্ম প্লটটির একটি 2 এক্স 2 গ্রাফিকটি থুতু দিন।

এটি আপেক্ষিক সম্ভাবনা সম্পর্কে আপনার প্রশ্নের প্রযুক্তিগতভাবে উত্তর দেবে না তবে আমি ভাবছি যে এটি আপনার প্রয়োজনীয় সমস্ত কি না।


চালাক। হতে পারে এটি যথেষ্ট, এবং সম্ভাবনার গণনাগুলি ব্যাখ্যা করার প্রয়োজনটিকে এড়িয়ে চলে .... ধন্যবাদ।
হার্ভে মোটুলস্কি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.