হার্টিগানসের ডিপ টেস্টের ব্যাখ্যা

আমি অনুভূতিগতভাবে পেয়েছি এমন কিছু বিতরণের দ্বি-দ্বিত্বের তীব্রতা পরিমাপ করার একটি উপায় খুঁজে পেতে চাই। আমি যা পড়েছি তা থেকে দ্বিপাক্ষিকতা মাপার উপায় নিয়ে এখনও কিছু বিতর্ক রয়েছে। আমি Hartigans 'চোবান পরীক্ষা যা শুধুমাত্র এক আর পাওয়া (: মূল কাগজ মনে করা হয় ব্যবহার করতে http://www.stat.washington.edu/wxs/Stat593-s03/Literature/hartigan85a.pdf )। হার্টিগানসের ডিপ টেস্টটি এই হিসাবে সংজ্ঞায়িত করা হয়েছে: "ডিপ টেস্টটি নমুনায় সর্বাধিক পার্থক্যের দ্বারা, সমস্ত নমুনা পয়েন্টের উপর ভিত্তি করে, অভিজ্ঞতা সম্পন্ন বিতরণ ফাংশন এবং সর্বনিম্ন বিতরণ ফাংশনকে সর্বাধিক পার্থক্যকে হ্রাস করে" ।

আমি পরিসংখ্যানটি ব্যবহার করার আগে আমার কীভাবে ব্যাখ্যা করা উচিত তা পুরোপুরি বুঝতে চাই। আমি প্রত্যাশা করছিলাম যে ডিস্ট্রিবিউটটি মাল্টিমোডাল হলে এটি ডিপ টেস্ট বাড়বে (কারণ এটি "ইউনিমোডাল বিতরণ থেকে সর্বাধিক পার্থক্য" হিসাবে সংজ্ঞায়িত হয়েছে)। তবে : আপনি উইকিপিডিয়া পৃষ্ঠায় মাল্টিমোডাল বিতরণ সম্পর্কে পড়তে পারেন যে "০.০৫ এর চেয়ে কম মানগুলি উল্লেখযোগ্য দ্বিবিজ্ঞান এবং 0.05 এর চেয়ে বেশি মানগুলি নির্দেশ করে তবে 0.10 এর চেয়ে কম প্রান্তিক তাত্পর্য সহ বিমোডালিটির প্রস্তাব দেয়" " । এই বিবৃতি এই কাগজ থেকে আসে (চিত্র 2)। এই কাগজ অনুসারে, বিতরণ যখন বিমোডাল হয় তখন ডিপ টেস্ট সূচকটি 0 এর কাছাকাছি থাকে। এটা আমাকে বিভ্রান্ত করে

হারটিগানসের ডিপ টেস্টটি সঠিকভাবে ব্যাখ্যা করতে আমি কিছু বিতরণ তৈরি করেছি (মূল কোডটি এখান থেকে ) এবং আমি এখন থেকে এক্সপ (মিউ 2) এর মান বাড়িয়েছি (যাকে 'বাইমোডুলারিটির ইনটেনসিটি' বলা হয়) সম্পাদনা করুন: আমার এটিকে 'তীব্রতা বলা উচিত ছিল দ্বি দ্বিচালিতত্ব ' ) বিমোডালিটি পেতে। প্রথম গ্রাফে আপনি বিতরণের কয়েকটি উদাহরণ দেখতে পাবেন। তারপরে আমি অনুমান করেছিলাম ডিপেষ্টেস্ট সূচক (দ্বিতীয় গ্রাফ) এবং পি মান (তৃতীয় গ্রাফ) সম্পর্কিত (প্যাকেজ ডিপটেস্ট ) সেই বিভিন্ন সিমুলেটেড বিতরণগুলিতে। ব্যবহৃত আর কোডটি আমার পোস্টের শেষে।

আমি এখানে যা দেখাব তা হ'ল ডিপ টেস্ট সূচকটি উচ্চতর এবং মানগুলি যখন বিমোডল হয় তখন কম থাকে। যা আপনি ইন্টারনেটে পড়তে পারেন তার বিপরীত।

আমি পরিসংখ্যানে কোনও বিশেষজ্ঞ নই, যাতে আমি হার্টিগানসের কাগজ সবেই বুঝতে পারি। হারটিগানসের ডিপ পরীক্ষার আমাদের সঠিক উপায়ে ব্যাখ্যা করা উচিত সম্পর্কে আমি কিছু মন্তব্য পেতে চাই। আমি কি কোথাও ভুল করছি?

সবাইকে ধন্যবাদ. শুভেচ্ছা সহ,

টি এ

অনুকরণের উদাহরণ সিমুলেটেড:

হার্টিগানের ডিপ টেস্ট সূচক সম্পর্কিত: এখানে চিত্র বর্ণনা লিখুন

হার্টিগানের ডিপ টেস্ট পি.ভ্যালু সম্পর্কিত: এখানে চিত্র বর্ণনা লিখুন

library(diptest)
library(ggplot2)


# CONSTANT PARAMETERS
sig1 <- log(3)
sig2 <- log(3)
cpct <- 0.5
N=1000

#CREATING BIMOD DISTRIBUTION
bimodalDistFunc <- function (n,cpct, mu1, mu2, sig1, sig2) {
  y0 <- rlnorm(n,mean=mu1, sd = sig1)
  y1 <- rlnorm(n,mean=mu2, sd = sig2)

  flag <- rbinom(n,size=1,prob=cpct)
  y <- y0*(1 - flag) + y1*flag 
}

#DIP TEST
DIP_TEST <- function(bimodalData) {
  TEST <- dip.test(bimodalData)
  return(TEST$statistic[[1]])   # return(TEST$p.value[[1]])    to get the p value
}
DIP_TEST(bimodalData)


# SIMULATION
exp_mu1 = 1
max_exp_mu2 = 100
intervStep = 100
repPerInt = 10

# single distibutions
expMu2Value <- c()
bimodalData <- c()
mu1 <- log(exp_mu1)   
mu2 <- log(exp_mu1)
bimodalData <- c(bimodalData,log(bimodalDistFunc(n=N,cpct,mu1,mu2, sig1,sig2)))
expMu2Value <- c(expMu2Value,rep(exp_mu1,length(log(bimodalDistFunc(n=N,cpct,mu1,mu2, sig1,sig2)))))

mu1 <- log(exp_mu1)   
mu2 <- log(max_exp_mu2)
bimodalData <- c(bimodalData,log(bimodalDistFunc(n=N,cpct,mu1,mu2, sig1,sig2)))
expMu2Value <- c(expMu2Value,rep(max_exp_mu2,length(log(bimodalDistFunc(n=N,cpct,mu1,mu2, sig1,sig2)))))

mu1 <- log(exp_mu1)   
mu2 <- log(trunc((max_exp_mu2-exp_mu1)/2+1))
bimodalData <- c(bimodalData,log(bimodalDistFunc(n=N,cpct,mu1,mu2, sig1,sig2)))
expMu2Value <- c(expMu2Value,rep(trunc((max_exp_mu2-exp_mu1)/2+1),length(log(bimodalDistFunc(n=N,cpct,mu1,mu2, sig1,sig2)))))

tableExamples <- data.frame(expMu2Value,bimodalData)
tableExamples$expMu2Value <- as.factor(tableExamples$expMu2Value)
ExamplePlot <- ggplot(tableExamples)+
  geom_histogram(aes(bimodalData),color='white')+
  ylab("Count")+
  xlab("")+
  facet_wrap(~expMu2Value)+
  ggtitle("Intensity of bimodularity")

# calculation of the dip test index
exp_mu2Int = seq(from=exp_mu1,to=max_exp_mu2,length.out=intervStep)
expmu2Vec = c()
dipStat = c()
testDone = c()
for(exp_mu2 in exp_mu2Int){
  mu1 <- log(exp_mu1)   
  mu2 <- log(exp_mu2)
  for(rep in 1:repPerInt){
    bimodalData <- log(bimodalDistFunc(n=N,cpct,mu1,mu2, sig1,sig2))
    diptestone = DIP_TEST(bimodalData)
    expmu2Vec = c(expmu2Vec,exp_mu2)
    dipStat = c(dipStat,diptestone)
    testDone = c(testDone,"diptest")
  }
}
table = data.frame(expmu2Vec,dipStat,testDone)

IndexPlot <- ggplot(table)+
  geom_point(aes(expmu2Vec,dipStat,color=testDone))+
  ylab("Index")+
  xlab("Intensity of Bimodularity")+
  scale_color_discrete(name="Test")

ExamplePlot
IndexPlot

r distributions

— টি এ
সূত্র

কোনও পরিসংখ্যানবিদদের মান দ্বারা তর্কযুক্ত একটি বিষয় সম্পর্কে খুব পুঙ্খানুপুঙ্খ প্রশ্ন কাজ। স্পষ্টত প্রথম প্রশ্নগুলি, যার মধ্যে একটিরও ব্যাখ্যার আগে তা হ'ল "আপনার এই পরীক্ষার দরকার কেন? যোগাযোগের উদ্দেশ্যে এটি কোন তথ্যটি তৈরি করা হয়েছে?" "ডিপ পরীক্ষা" থেকে ফলাফলের ব্যাখ্যার অনেক বেশি প্রবাহিত প্রেরণাগুলি আপনাকে উত্সাহিত করার জন্য কিছু অতিরিক্ত প্রসঙ্গ সরবরাহ করতে পারে? অন্য কথায়, এটি সুবিধাজনক আর্ট আর প্রোগ্রামিং ব্যতীত, যুক্তির কোন পথ আপনাকে প্রথমে "ডিপ টেস্ট" এ নিয়েছে?

— মাইক হান্টার

উত্তর দেওয়ার জন্য আপনাকে ধন্যবাদ, মাইক। আমি বিবর্তনমূলক জীববিজ্ঞানের একটি তাত্ত্বিক মডেলটিতে কাজ করছি এবং আমি একটি সংবেদনশীলতা বিশ্লেষণ করছি। বিশেষত, আমি পর্যবেক্ষণ করেছি যে কিছু পরামিতিগুলির বিবিধতা একটি ইউনিট থেকে বিমোডাল (যা আসলে খুব আকর্ষণীয়) এ আউটপুট ভেরিয়েবলের বিতরণ পরিবর্তন করে। এ কারণেই আমি কোনও বিতরণের বহুমাত্রিকতা বর্ণনা করার জন্য একটি সাধারণ পরিসংখ্যান সন্ধান করছি। এটি আমাকে বহুমাত্রিকতার উপর সংবেদনশীলতা বিশ্লেষণকে ফোকাস করার অনুমতি দেবে।

— টিএ

আমি জানতে পেরেছি যে ডিপ পরীক্ষাটি সহজেই আর-তে গণনা করা যেতে পারে এবং এটি একটি সর্বজনীন বিতরণ থেকে বিচ্যুতিকে মাপ দিতে পারে। অবশ্যই, আমি কোনও বিতরণের বহুমাত্রিকতা বর্ণনা করে অন্য কোনও পরিসংখ্যান দ্বারা সত্যই আগ্রহী হবে।

— টিএ

হুমম ... কয়েকটি নম্র বহুবচন ফিটিং করা আপনি যে বক্ররেখাটি পর্যবেক্ষণ করছেন তা মোকাবেলা করার জন্য "গরিব মানুষ" পদ্ধতির পরিমাণ হতে পারে এবং হারটিগানের পরীক্ষার চেয়ে আরও সহজেই মোতায়েন ও ব্যাখ্যা করা যেতে পারে। আপনার সমস্যাগুলিতে কোনও বৃদ্ধি ফাংশন নিয়ে কাজ করা জড়িত কিনা আপনি তা বলবেন না। উদাহরণস্বরূপ, মানব বিকাশে, জীবনচক্রের স্বতন্ত্র পয়েন্টগুলিতে বৃদ্ধির গতিপথের বেশ কয়েকটি সুপরিচিত "বিম্প" রয়েছে। ননপ্যারামেট্রিক মডেলগুলিকে প্যারামেট্রিক মডেলের চেয়ে ভালভাবে ফিট করার জন্য এবং এই আনলাইনারিটিগুলিকে আনুমানিক হিসাবে পাওয়া যায়।

— মাইক হান্টার

পরিসংখ্যানগত ইস্যুতে: যেমন বলা হয়েছে, ডিপ টেস্টটি একটি রেফারেন্স হিসাবে সর্বসম্মত লাগে। আমি মনে করি না এটি থেকে প্রস্থানগুলি কেবলমাত্র পি-মান থেকে মোডের সংখ্যার দিক দিয়ে ব্যাখ্যা করা যেতে পারে। ঘনত্বের অনুমান এবং সংক্ষিপ্ত ব্যাখ্যার সংমিশ্রণ সহ মোডের সংখ্যা ব্যাখ্যা করতে আমি এটিকে আরও বেশি দরকারী বলে মনে করেছি।

— নিক কক্স

মিঃ ফ্রিম্যান ( আমি আপনাকে যে কাগজটির কথা বলেছিলাম তার লেখক ) আমাকে বলেছিলেন যে তিনি আসলে কেবল ডিপ পরীক্ষার পলভ্য দেখছিলেন। এই বিভ্রান্তির তার বাক্য থেকে আসে:
"HDS মান 0 থেকে 1 থেকে মান .05 চেয়ে কম গুরুত্বপূর্ণ bimodality ইঙ্গিত ও মূল্যবোধ চেয়ে বড় .05 কিন্তু .10 কম প্রান্তিক তাত্পর্য সঙ্গে bimodality পরামর্শ পরিসীমা," । এইচডিএস মানগুলি মূল্যের সাথে সমান, এবং ডিপ পরীক্ষার পরিসংখ্যানগুলির সাথে নয়। কাগজে এটি অস্পষ্ট ছিল।

আমার বিশ্লেষণটি ভাল: বিতরণ একটি অবিবাহিত বিতরণ থেকে বিচ্যুত হলে ডিপ পরীক্ষার পরিসংখ্যানগুলি বৃদ্ধি পায়।

বিমোডালিটি টেস্ট এবং সিলভারম্যানের পরীক্ষাও সহজেই গণনা করা যায় এবং ভালভাবে কাজটি করতে পারে।

— টি এ
সূত্র

দয়া করে নিবন্ধ করুন এবং আপনার অ্যাকাউন্টগুলি মার্জ করুন। আমাদের সহায়তা কেন্দ্রের আমার অ্যাকাউন্ট বিভাগে এটি কীভাবে করা যায় সে সম্পর্কে আপনি তথ্য পেতে পারেন ।

— গুং - মনিকা পুনরায়