আমার বিতরণ মাল্টিমোডাল হলে কীভাবে পরীক্ষা করবেন?


21

আমি যখন আমার ডেটাগুলির একটি হিস্টোগ্রামের পরিকল্পনা করি তখন এর দুটি শিখর থাকে:

বারলেখ

এর অর্থ কি কোনও সম্ভাব্য বহু-মডেল বিতরণ? আমি dip.testআর ( library(diptest)) এ চালিয়েছি এবং আউটপুটটি হ'ল:

D = 0.0275, p-value = 0.7913

আমি উপসংহারে আসতে পারি যে আমার ডেটাতে একটি বহু-মডেল বিতরণ রয়েছে?

ডেটা

10346 13698 13894 19854 28066 26620 27066 16658  9221 13578 11483 10390 11126 13487 
15851 16116 24102 30892 25081 14067 10433 15591  8639 10345 10639 15796 14507 21289 
25444 26149 23612 19671 12447 13535 10667 11255  8442 11546 15958 21058 28088 23827 
30707 19653 12791 13463 11465 12326 12277 12769 18341 19140 24590 28277 22694 15489 
11070 11002 11579  9834  9364 15128 15147 18499 25134 32116 24475 21952 10272 15404 
13079 10633 10761 13714 16073 23335 29822 26800 31489 19780 12238 15318  9646 11786 
10906 13056 17599 22524 25057 28809 27880 19912 12319 18240 11934 10290 11304 16092 
15911 24671 31081 27716 25388 22665 10603 14409 10736  9651 12533 17546 16863 23598 
25867 31774 24216 20448 12548 15129 11687 11581

3
আপনার হিস্টোগ্রামে আরও বিনা ব্যবহার করুন । আমি প্রায় দ্বিগুণ হিসাবে পরামর্শ দিই
Glen_b -Rininstate মনিকা

1
এই উত্তরে নয়টি পৃথক পরীক্ষার উল্লেখ রয়েছে , যার কয়েকটি আপনার অবস্থার সাথে প্রাসঙ্গিক হতে পারে।
গ্লেন_বি-রিনস্টেট মনিকা

1
এই কাগজটি সম্ভবত আপনার পক্ষে কার্যকর হতে পারে, যদি আপনি এটি ইতিমধ্যে না দেখে থাকেন (এটিও অনুসরণ করে )
ইওন

উত্তর:


15

@ নিককক্স একটি আকর্ষণীয় কৌশল (+1) উপস্থাপন করেছে। আমি উদ্বেগ প্রকাশ করেছেন যে @whuber কারণে, প্রকৃতি তবে এটা আরো অনুসন্ধানমূলক বিবেচনা করতে পারেন পয়েন্ট আউট

আমাকে অন্য কৌশলটি পরামর্শ দিন: আপনি কোনও গাউসিয়ান সসীম মিশ্রণের মডেল ফিট করতে পারেন। নোট করুন যে এটি আপনার দৃ data় ধারণাটি তৈরি করে যে আপনার ডেটা এক বা একাধিক সত্য নরমাল থেকে আঁকা। @ অনুগ্রহকারী এবং @ নিককক্স উভয়ই এই ধারণাকে সমর্থন করার জন্য well সুপ্রতিষ্ঠিত তত্ত্ব দ্বারা সমর্থিত data এই ডেটাগুলির কোনও বিশদ ব্যাখ্যা ছাড়াই মন্তব্যে উল্লেখ করেছেন, এই কৌশলটিকেও অনুসন্ধানী হিসাবে বিবেচনা করা উচিত।

প্রথমে আসুন @ গ্লেন_ বি এর পরামর্শ অনুসরণ করুন এবং দ্বিগুণ বিন ব্যবহার করে আপনার ডেটা দেখুন:

এখানে চিত্র বর্ণনা লিখুন

আমরা এখনও দুটি মোড দেখতে পাই; যদি কিছু হয় তবে এগুলি এখানে আরও স্পষ্টভাবে আসে। (এও নোট করুন যে কার্নেলের ঘনত্বের লাইনটি একরকম হওয়া উচিত তবে বিনের সংখ্যার কারণে আরও ছড়িয়ে পড়ে appears)

এখন একটি গাউসিয়ান সসীম মিশ্রণ মডেল ফিট করতে দিন। ইন R, আপনি এটি করতে Mclustপ্যাকেজটি ব্যবহার করতে পারেন :

library(mclust)
x.gmm = Mclust(x)
summary(x.gmm)
# ----------------------------------------------------
# Gaussian finite mixture model fitted by EM algorithm 
# ----------------------------------------------------
#   
# Mclust V (univariate, unequal variance) model with 2 components:
#   
#   log.likelihood   n df       BIC       ICL
#        -1200.874 120  5 -2425.686 -2442.719
# 
# Clustering table:
#  1  2 
# 68 52 

দুটি সাধারণ উপাদান বিআইসিকে অনুকূল করে তোলে। তুলনার জন্য, আমরা একটি উপাদানকে বাধ্য করতে পারি এবং সম্ভাবনা অনুপাত পরীক্ষা করতে পারি:

x.gmm.1 = Mclust(x, G=1)
logLik(x.gmm.1)
# 'log Lik.' -1226.241 (df=2)
logLik(x.gmm)-logLik(x.gmm.1)
# 'log Lik.' 25.36657 (df=5)
1-pchisq(25.36657, df=3)  # [1] 1.294187e-05

এটি প্রস্তাব দেয় যে এটি যদি আপনার একক সত্যিকারের সাধারণ বিতরণ থেকে আসে তবে আপনি সর্বজনীন থেকে যতটা দূরে ডেটা খুঁজে পাবেন এটি অত্যন্ত সম্ভাবনা নয়।

কিছু লোক এখানে প্যারাম্যাট্রিক পরীক্ষা ব্যবহার করে স্বাচ্ছন্দ্য বোধ করে না (যদিও অনুমানগুলি ধরে রাখলে আমি কোনও সমস্যা জানি না)। একটি অত্যন্ত বিস্তৃতভাবে প্রয়োগযোগ্য কৌশল হ'ল প্যারামেট্রিক বুটস্ট্র্যাপ ক্রস-ফিটিং পদ্ধতিটি (আমি এখানে অ্যালগোরিদম বর্ণনা করি ) use আমরা এই তথ্যগুলিতে এটি প্রয়োগ করার চেষ্টা করতে পারি:

x.gmm$parameters
# $mean
# 12346.98 23322.06 
# $variance$sigmasq
# [1]  4514863 24582180
x.gmm.1$parameters
# $mean
# [1] 17520.91
# $variance$sigmasq
# [1] 43989870

set.seed(7809)
B = 10000;    x2.d = vector(length=B);    x1.d = vector(length=B)
for(i in 1:B){
  x2      = c(rnorm(68, mean=12346.98, sd=sqrt( 4514863)), 
              rnorm(52, mean=23322.06, sd=sqrt(24582180)) )
  x1      = rnorm( 120, mean=17520.91, sd=sqrt(43989870))
  x2.d[i] = Mclust(x2, G=2)$loglik - Mclust(x2, G=1)$loglik
  x1.d[i] = Mclust(x1, G=2)$loglik - Mclust(x1, G=1)$loglik
}
x2.d = sort(x2.d);  x1.d = sort(x1.d)
summary(x1.d)
#     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
# -0.29070 -0.02124  0.41460  0.88760  1.36700 14.01000 
summary(x2.d)
#   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
#  9.006  23.770  27.500  27.760  31.350  53.500 

এখানে চিত্র বর্ণনা লিখুন

নমুনা বিতরণের জন্য সংক্ষিপ্ত পরিসংখ্যান এবং কার্নেল ঘনত্ব প্লটগুলি বেশ কয়েকটি আকর্ষণীয় বৈশিষ্ট্য দেখায়। একক উপাদান মডেলের লগ সম্ভাবনা দু'টি উপাদানগুলির তুলনায় খুব কমই যথাযথ হয়, এমনকি যখন সত্য উপাত্ত তৈরির প্রক্রিয়াটিতে কেবল একটি একক উপাদান থাকে এবং যখন এটি বেশি হয়, পরিমাণটি তুচ্ছ। মডেলগুলির সাথে তুলনামূলক ধারণা যা তাদের ডেটা ফিট করার ক্ষমতাতে পৃথক হয় পিবিসিএমের পিছনে অন্যতম অনুপ্রেরণা। দুটি নমুনা বিতরণ সবেমাত্র ওভারল্যাপ করে; কেবলমাত্র .35% x2.dসর্বাধিকের চেয়ে কমx1.dমান। যদি আপনি একটি দুটি উপাদান মডেল নির্বাচন করেন তবে লগ হওয়ার সম্ভাবনার ক্ষেত্রে পার্থক্য> 9.7 থাকলে আপনি ভুলভাবে একটি উপাদান মডেল নির্বাচন করতে পারেন .01% এবং দুটি উপাদান মডেল .02% সময়। এগুলি অত্যন্ত বৈষম্যমূলক। অন্যদিকে, আপনি যদি একটি উপাদান মডেলটিকে নাল হাইপোথিসিস হিসাবে বেছে নেওয়া বেছে নিয়ে থাকেন তবে আপনার পর্যবেক্ষণের ফলটি 10,000 টি পুনরাবৃত্তিতে পরীক্ষামূলক নমুনা বিতরণে প্রদর্শিত না হওয়ায় যথেষ্ট ছোট। আমরা পি-মানটির উপরে একটি উপরের আবদ্ধ রাখতে 3 টি ( এখানে দেখুন ) বিধিটি ব্যবহার করতে পারি , যথা, আমরা অনুমান করি যে আপনার পি-মানটি 10003 এর চেয়ে কম। এটি, এটি অত্যন্ত তাৎপর্যপূর্ণ।

এই ফলাফলগুলি কেন আপনার ডিপ পরীক্ষার থেকে এত বেশি দূরে সরিয়ে দেয় তা প্রশ্ন উত্থাপন করে। (আপনার স্পষ্ট প্রশ্নের উত্তর দিতে, আপনার ডিপ টেস্ট দুটি সত্যিকারের মোড আছে এমন কোনও প্রমাণ দেয় না)) আমি সত্যই ডিপ পরীক্ষাটি জানি না, তাই বলা শক্ত hard এটি আন্ডার পাওয়ার হতে পারে। তবে আমি মনে করি সম্ভবত উত্তরটি হ'ল এই পদ্ধতির মাধ্যমে ধরে নেওয়া হবে যে আপনার ডেটা সত্যিকারের স্বাভাবিক [গুলি] দ্বারা উত্পন্ন হয়েছে। আপনার ডেটার জন্য একটি শাপিরো-উইলক পরীক্ষা অত্যন্ত তাৎপর্যপূর্ণ ( ), এবং এটি আপনার ডেটার অনুকূল বক্স-কক্স রূপান্তরকরণের জন্যও অত্যন্ত তাত্পর্যপূর্ণ (বিপরীত স্কোয়ার রুট; )। যাইহোক, ডেটা কখনও সত্যই স্বাভাবিক হয় না (সিএফ।, এই বিখ্যাত উক্তি)পি < .001পি<.000001পি<.001), এবং অন্তর্নিহিত উপাদানগুলির উপস্থিতি থাকা উচিত, সেগুলিও পুরোপুরি স্বাভাবিক হওয়ার গ্যারান্টিযুক্ত নয়। যদি আপনি এটি যুক্তিসঙ্গত মনে করেন যে আপনার ডেটা স্বাভাবিকের চেয়ে ইতিবাচক স্কিউড বিতরণ থেকে আসতে পারে, তবে দ্বি দ্বিবিদ্যার এই স্তরটি সাধারণত ভিন্নতার সাধারণ পরিসরের মধ্যে থাকতে পারে, যা আমি সন্দেহ করি যা ডিপ টেস্ট বলছে।


1
এই পদ্ধতির সমস্যাটি হ'ল আপনি যে বিকল্পটির সাথে গাউসীয় মিশ্রণের তুলনা করছেন তা খুব যুক্তিসঙ্গত নয়। আরও যুক্তিসঙ্গত একটি হ'ল বিতরণটি হ'ল এক ধরণের ডান স্কিউড, যেমন গামা। এটি প্রায় একটি প্রদত্ত যে কোনও মিশ্রণ কোনও স্কাউড ডেটাসেটের সাথে একক গাউসীয় এটি ফিট করতে পারে তার চেয়ে "উল্লেখযোগ্যভাবে" ফিট করে।
whuber

ঠিক বলেছেন, @ শুভ আমি স্পষ্ট করে এই বিষয়টি করার চেষ্টা করেছি। আমি গামা এফএমএম কীভাবে করব তা নিশ্চিত নই, তবে এটি আরও ভাল।
গুং - মনিকা পুনরায়

1
যেহেতু এটি অন্বেষণীয়, তাই একটি ধারণা মূল বন্টনকে প্রতিসরণে রূপান্তর করার চেষ্টা করা হতে পারে (সম্ভবত কোনও অফসেট বক্স-কক্স রূপান্তর করে, যা ডেটা কয়েক কোয়ান্টাইল থেকে দৃ estimated়ভাবে অনুমান করা হয়) এবং আবার আপনার পদ্ধতির চেষ্টা করে। অবশ্যই আপনি প্রতি সে "তাত্পর্য" সম্পর্কে কথা বলবেন না তবে সম্ভাবনার বিশ্লেষণটি এখনও প্রকাশ করতে পারে।
whuber

@ হুবুহু, আমি এটি করেছিলাম, তবে আমি কেবল এটি পাসের মধ্যে উল্লেখ করেছি। (অনুকূল বক্স-কক্স রূপান্তরটি বিপরীত স্কোয়ার রুট)) আপনি একই ফলাফল পান তবে পি-মানগুলি (এখনও উচ্চ, তবে) কম তাত্পর্যপূর্ণ।
গুং - মনিকা পুনরায়

3
আমি এই ধারণাটি খুব পছন্দ করি যে আপনি উত্পন্ন প্রক্রিয়া যা ভাবেন তার মডেলিং করা উচিত। আমার সমস্যাটি হ'ল এমনকি গাউসিয়ান মিশ্রণগুলি ভালভাবে কাজ করার পরেও আমি অনুভব করি যে এর একটি অর্থপূর্ণ ব্যাখ্যা হওয়া উচিত। যদি ওপি আমাদের আরও কিছু তথ্য দেয় তবে ডেটা কিছু আরও ভাল অনুমান করা সম্ভব হতে পারে।
নিক কক্স

10

মধ্যে @ নিক এর উত্তর এবং মন্তব্য ধারনা নিম্নলিখিত আপ, আপনি দেখতে পারেন কিভাবে ব্যাপক ব্যান্ডউইডথ চাহিদা হতে মাত্র মাধ্যমিক মোড আউট চেপ্টা:

এখানে চিত্র বর্ণনা লিখুন

এই কর্নেল ঘনত্বের অনুমানটিকে প্রক্সিমাল নাল হিসাবে গ্রহণ করুন - তথ্যের নিকটতম বিতরণটি এখনও নাল অনুমানের সাথে সামঞ্জস্যপূর্ণ যে এটি একটি সর্বজনীন জনগোষ্ঠীর নমুনা — এবং এটি থেকে অনুকরণ করে। সিমুলেটেড স্যাম্পলগুলিতে সেকেন্ডারি মোড প্রায়শই এত স্বতন্ত্র লাগে না এবং আপনার চ্যাপ্টা করার জন্য ব্যান্ডউইথকে আরও প্রশস্ত করতে হবে না।

<কোড> এখানে চিত্রের বিবরণ প্রবেশ করুন </ কোড>

এই পদ্ধতির রূপায়নটি সিলভারম্যান (1981), " মোডালটিটি তদন্তের জন্য কার্নেল ঘনত্বের প্রাক্কলন ব্যবহার করে", জেআরএসএস বি , 43 , ১-এ দেওয়া পরীক্ষার দিকে পরিচালিত করে, শ্যুইগার এবং হলজম্যানের silvermantestপ্যাকেজটি এই পরীক্ষাটি প্রয়োগ করে এবং হল ও ইয়র্ক দ্বারা বর্ণিত ক্রমাঙ্কন পদ্ধতিও ( 2001), "মাল্টি মড্যডালটির জন্য সিলভারম্যানের পরীক্ষার ক্রমাঙ্কনের উপর", স্ট্যাটিস্টিকা সিনিকা , 11 , পি 515, যা অ্যাসিপটোটিক রক্ষণশীলতার জন্য সামঞ্জস্য করে। অবিশ্বাস্যতার নাল অনুমানের সাথে আপনার ডেটাতে পরীক্ষা করা ফলাফলের পিছুকৃত মূল্য ছাড়াই 0.08 এবং ক্রমাঙ্কন সহ 0.02 এর মান হয়। কেন এটি পৃথক হতে পারে তা অনুমান করার জন্য আমি ডিপ টেস্টের সাথে যথেষ্ট পরিচিত নই।

আর কোড:

  # kernel density estimate for x using Sheather-Jones method to estimate b/w:
density(x, kernel="gaussian", bw="SJ") -> dens.SJ
  # tweak b/w until mode just disappears:
density(x, kernel="gaussian", bw=3160) -> prox.null
  # fill matrix with simulated samples from the proximal null:
x.sim <- matrix(NA, nrow=length(x), ncol=10)
for (i in 1:10){
  x.sim[ ,i] <- rnorm(length(x), sample(x, size=length(x), replace=T), prox.null$bw)
}
  # perform Silverman test without Hall-York calibration:
require(silvermantest)
silverman.test(x, k=1, M=10000, adjust=F)
  # perform Silverman test with Hall-York calibration:
silverman.test(x, k=1, M=10000, adjust=T)

+1 টি। মজাদার! এখানে কোন কার্নেল ব্যবহার করা হচ্ছে? আমি যেহেতু অস্পষ্টভাবে স্মরণ করছি, গৌসিয়ান কার্নেলগুলি এই পদ্ধতির আনুষ্ঠানিক রূপের জন্য ব্যবহার করা উচিত তার সূক্ষ্ম কারণ রয়েছে।
নিক কক্স

@ নিক: গাউসিয়ান কার্নেল, তবে এর কোনও জোরালো কারণ আছে কিনা তা আমি মনে করতে পারি না। প্রতিটি অনুকরণীয় নমুনা পুনরুদ্ধার করা হয়, এবং মূল পরীক্ষার একটি রক্ষণশীল পক্ষপাতিত্বের জন্য একটি সংশোধন রয়েছে - আমার মনে হয় স্টোরি নামে পরিচিত কেউ কাজ করেছিলেন।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

@ নিককক্স: দুঃখিত, মোটেও স্টোর নয়।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

@ স্কোর্টচি, আমি আপনার পাঠ্য এবং কোডটি সামান্যই টুইট করেছি। আমি আশা করি আপনি কিছু মনে করবেন না। +1 টি। এছাড়াও, আপনি ভয়ঙ্কর ডান তীর অ্যাসাইনমেন্ট অপারেটরটি ব্যবহার করেন ?! ওহ মানবতা ...
গাং - মনিকা পুনরায়

2
এটি আসলে আরও ভাল বা খারাপ নয়, তবে প্রোগ্রামিংয়ের কনভেনশন হ'ল আপনার ভেরিয়েবলগুলি বাম দিকে বর্ণিত করুন এবং যা ডানদিকে দেওয়া হয়েছে তা রাখুন have প্রচুর লোককে বের করে দেওয়া হয় ->; আমি শুধু বিভ্রান্ত।
গুং - মনিকা পুনরায়

7

উদ্বেগের বিষয়গুলির মধ্যে রয়েছে:

  1. ডেটাসেটের আকার। এটি ক্ষুদ্র নয়, বড় নয়।

  2. আপনি হিস্টোগ্রাম উত্স এবং বিন প্রস্থে যা দেখতে পান তার নির্ভরতা। শুধুমাত্র একটি পছন্দ স্পষ্টতই, আপনার (এবং আমাদের) সংবেদনশীলতার কোনও ধারণা নেই।

  3. আপনি কার্নেলের ধরণ এবং প্রস্থে যা দেখেন তার নির্ভরতা এবং ঘনত্বের অনুমানের জন্য আপনার জন্য অন্য যে কোনও পছন্দগুলি করা হয়। শুধুমাত্র একটি পছন্দ স্পষ্টতই, আপনার (এবং আমাদের) সংবেদনশীলতার কোনও ধারণা নেই।

অন্য কোথাও আমি স্থায়ীভাবে পরামর্শ দিয়েছি যে মোডগুলির বিশ্বাসযোগ্যতা সমর্থনযোগ্য (তবে প্রতিষ্ঠিত নয়) একটি সংক্ষিপ্ত ব্যাখ্যা দ্বারা এবং একই আকারের অন্যান্য ডেটাসেটগুলিতে একই পদ্ধতিটি চিহ্নিত করার ক্ষমতা দ্বারা। (আরও বড় ভাল ....)

আমরা এখানে যারা কারওর উপর মন্তব্য করতে পারি না। পুনরাবৃত্তিযোগ্যতার একটি ছোট হাতল হ'ল আপনি একই আকারের বুটস্ট্র্যাপ নমুনাগুলির সাথে যা পান তা তুলনা করা। স্টাটা ব্যবহার করে টোকেন পরীক্ষার ফলাফল এখানে দেওয়া হয়েছে, তবে আপনি যা দেখছেন তা নির্বিচারে স্টাতার ডিফল্টগুলিতে সীমাবদ্ধ যা এগুলি এয়ার থেকে বেরিয়ে আসা হিসাবে নথিভুক্ত রয়েছে । আমি আসল তথ্য এবং একই থেকে 24 বুটস্ট্র্যাপ নমুনার জন্য ঘনত্বের অনুমান পেয়েছি।

ইঙ্গিতটি (আর কোনও নয়, কম নয়) আমি মনে করি অভিজ্ঞ বিশ্লেষকরা আপনার গ্রাফ থেকে কোনও উপায় অনুমান করতে পারেন। বাম-হাত মোড অত্যন্ত পুনরাবৃত্তিযোগ্য এবং ডান হাত স্পষ্টতই আরও ভঙ্গুর।

নোট করুন যে এটি সম্পর্কে একটি অনিবার্যতা রয়েছে: ডান হাতের মোডের নিকটে যত কম ডাটা রয়েছে তাই এটি বুটস্ট্র্যাপের নমুনায় সর্বদা আবার প্রদর্শিত হবে না। তবে এটিও মূল বিষয়।

এখানে চিত্র বর্ণনা লিখুন

উপরে 3 পয়েন্ট নোট করুন। তবে ফলাফলগুলি ইউনিমোডাল এবং বিমোডালের মধ্যে কোথাও।

আগ্রহীদের জন্য, এই কোড:

clear 
set scheme s1color 
set seed 2803 

mat data = (10346, 13698, 13894, 19854, 28066, 26620, 27066, 16658, 9221, 13578, 11483, 10390, 11126, 13487, 15851, 16116, 24102, 30892, 25081, 14067, 10433, 15591, 8639, 10345, 10639, 15796, 14507, 21289, 25444, 26149, 23612, 19671, 12447, 13535, 10667, 11255, 8442, 11546, 15958, 21058, 28088, 23827, 30707, 19653, 12791, 13463, 11465, 12326, 12277, 12769, 18341, 19140, 24590, 28277, 22694, 15489, 11070, 11002, 11579, 9834, 9364, 15128, 15147, 18499, 25134, 32116, 24475, 21952, 10272, 15404, 13079, 10633, 10761, 13714, 16073, 23335, 29822, 26800, 31489, 19780, 12238, 15318, 9646, 11786, 10906, 13056, 17599, 22524, 25057, 28809, 27880, 19912, 12319, 18240, 11934, 10290, 11304, 16092, 15911, 24671, 31081, 27716, 25388, 22665, 10603, 14409, 10736, 9651, 12533, 17546, 16863, 23598, 25867, 31774, 24216, 20448, 12548, 15129, 11687, 11581)
set obs `=colsof(data)' 
gen data = data[1,_n] 

gen index = . 

quietly forval j = 1/24 { 
    replace index = ceil(120 * runiform()) 
    gen data`j' = data[index]
    kdensity data`j' , nograph at(data) gen(xx`j' d`j') 
} 

kdensity data, nograph at(data) gen(xx d) 

local xstuff xtitle(data/1000) xla(10000 "10" 20000 "20" 30000 "30") sort 
local ystuff ysc(r(0 .0001)) yla(none) `ystuff'   

local i = 1 
local colour "orange" 
foreach v of var d d? d?? { 
    line `v' data, lc(`colour') `xstuff'  `ystuff' name(g`i', replace) 
    local colour "gs8" 
    local G `G' g`i' 
    local ++i 
} 

graph combine `G' 

+1 আমি আপনার বুটস্ট্র্যাপ পদ্ধতির পছন্দ করি: প্লটের অ্যারে প্রত্যেককে ডেটা আরও ভালভাবে বুঝতে সহায়তা করে। আমি ভাবছি those প্লটগুলি ব্যান্ডউইথের কীভাবে অনুমান করে তার সংবেদনশীল হতে পারে কিনা। আমি সন্দেহ করি যে এটি একটি নিম্ন-চালিত পরীক্ষার ফলস্বরূপ হতে পারে কারণ এর প্রাক্কলনটি সম্ভবত একটি সর্বজনীন অনুমানের উপর নির্ভর করে তুলনামূলকভাবে প্রশস্ত ব্যান্ডউইথের দিকে নিয়ে যায় th এমনকি সামান্য সংকীর্ণ ব্যান্ডউইথের প্রাক্কলনটি সমস্ত বুটস্ট্র্যাপ নমুনায় দ্বিতীয় মোডকে আরও বিশিষ্ট করে তুলতে পারে।
whuber

2
@ শুভ ধন্যবাদ! যথারীতি আপনি আমাদের দুর্বলতাগুলি নিয়ে উদ্বিগ্ন মনোনিবেশ করেন এবং আমি সম্মত হই। কার্নেল ব্যান্ডউইথগুলি বাড়ার সাথে সাথে অবিমূর্ততার উপস্থিতি অনিবার্যতার দিকে ঝোঁক। বিপরীতে, ছোট ব্যান্ডউইথগুলি প্রায়শই কেবল অপ্রয়োগযোগ্য এবং / বা তুচ্ছ তাত্পর্যপূর্ণ মোডগুলি নির্দেশ করে। বাণিজ্য বন্ধ সত্যই নাজুক। আমি মনে করি এই পদ্ধতির মূল যোগ্যতা হ'ল "আমরা যদি জাগ্রত করি তবে তা কি প্রতিরূপ?" আমি প্রায়শই প্রতিফলন ছাড়াই ডিফল্ট ফলাফল অনুলিপি করতে সফ্টওয়্যার ব্যবহারকারীদের ইচ্ছায় উদ্বিগ্ন।
নিক কক্স

2
প্রগতিশীলভাবে ব্যান্ডউইথকে সংশোধন করা এবং ব্যান্ডউইথের পরিবর্তিত হওয়ার সাথে সাথে মোডগুলির উপস্থিতি এবং অন্তর্ধানের ভিত্তিতে এই সমস্যাটির জন্য নিয়মতান্ত্রিক পন্থা রয়েছে। সংক্ষেপে, একটি বিশ্বাসযোগ্য মোড স্থির থাকে এবং কম-বিশ্বাসযোগ্য মোড থাকে না। এটি একটি দৃষ্টিনন্দন পদ্ধতির, তবে কখনও কখনও কোনও কোদাল যখন করবে তখন কোনও টানেল নির্মাণকারীকে গুলি চালিয়ে দেবে। উদাহরণস্বরূপ, আপনি যদি হিস্টগ্রাম পছন্দগুলি পছন্দ করেন এবং গৌণ মোডটি খুব সহজেই অদৃশ্য হয়ে যায় (তবে চলুন), এটি বিশ্বাস করবেন না।
নিক কক্স

2

এলপি ননপ্যারমেট্রিক মোড সনাক্তকরণ

এলপি ননপ্যারামেট্রিক মোড আইডেন্টিফিকেশন (এলগোরিদমের নাম এলপিমোড , কাগজের রেফ নীচে দেওয়া হয়েছে)

ম্যাকসেন্ট মোডগুলি [প্লটে লাল রঙের ত্রিভুজগুলি]: 12783.36 এবং 24654.28।

এল 2 মোডস [প্লটে সবুজ রঙের ত্রিভুজ]: 13054.70 এবং 24111.61।

মডেল আকারগুলি উল্লেখ করা আকর্ষণীয়, বিশেষত দ্বিতীয়টি যা যথেষ্ট তাত্পর্য দেখায় (ট্র্যাডিশনাল গাউসিয়ান মিশ্রণ মডেলটি এখানে ব্যর্থ হওয়ার সম্ভাবনা রয়েছে)।

মুখোপাধ্যায়, এস। (২০১)) বৃহত্তর স্কেল মোড সনাক্তকরণ এবং ডেটা-চালিত বিজ্ঞান। https://arxiv.org/abs/1509.06428


1
আপনি কি এই পদ্ধতিগুলি প্রবর্তন ও ব্যাখ্যা করার জন্য বিশদ বিবরণ দিতে এবং কিছু প্রসঙ্গ সরবরাহ করতে পারেন? কাগজের সাথে একটি লিঙ্ক থাকা ভাল, তবে আমরা এখানে আমাদের উত্তরগুলিকে স্ব-নিখুঁত থাকতে পছন্দ করি, বিশেষত লিঙ্কটি মারা গেলে।
গুং - মনিকা পুনরায়

প্রসঙ্গটি মূল প্রশ্ন: বহুত্বের কি আছে? যদি তাই অবস্থান। এবং একটি নতুন পদ্ধতির প্রাসঙ্গিকতা এই বাস্তব থেকে আসে যে একটি ননপ্যারমেট্রিক পদ্ধতিতে বাম্প শিকার করা শক্ত মডেলিংয়ের সমস্যা।
দীপ মুখার্জি

@ গুং আপনাকে উত্তরটি প্রসারিত করতে বলছে। উদাহরণস্বরূপ, ফলাফলটি কোনও কাগজে ব্যাখ্যা করা পদ্ধতি থেকে আসে যার কোনও সার্বজনীন সংস্করণ নেই।
নিক কক্স

2
না, আমি বলতে চাইছি "এলপি ননপ্যারামেট্রিক মোড আইডেন্টিফিকেশন" কী? "ম্যাক্সেন্ট" কী? ইত্যাদি দুটি বাক্যে, এটি কীভাবে কাজ করে? কেন / কখন এটি অন্যান্য পদ্ধতির চেয়ে বেশি পছন্দনীয় হতে পারে? ইত্যাদি আমি সচেতন যে আপনি যে কাগজগুলিতে তাদের ব্যাখ্যা করেছেন তার সাথে লিঙ্ক করেছেন, তবে তাদের এখানে পরিচয় করিয়ে দেওয়ার জন্য দুটি দণ্ড দেওয়া ভাল লাগবে, বিশেষত লিঙ্কটি মরে গেলেও ভবিষ্যতের পাঠকরা সেগুলি বোঝায় না কেন এই পদ্ধতি অনুসরণ করতে চান।
গুং - মনিকা পুনরায়

2
@ প্রদীপ মুখার্জি, আপনার পোস্টটিতে অবশ্যই পুরো কাগজটি পুনরায় লেখার দরকার নেই। এটি কী এবং এটি কীভাবে কাজ করে তা বলার জন্য কয়েকটি বাক্য যুক্ত করুন।
গুং - মনিকা পুনরায়
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.