ক্লাস্টারিং অ্যালগরিদমগুলি যেগুলি স্পার্স ডেটা ম্যাট্রিক্সে বন্ধ হয় [বন্ধ]


18

আমি ক্লাস্টারিং অ্যালগোরিদমগুলির একটি তালিকা সংকলন করার চেষ্টা করছি:

  1. আরে প্রয়োগ করা হয়েছে
  2. বিক্ষিপ্ত কাজ ডেটা ম্যাট্রিক্স যেমন দ্বারা নির্মিত হিসাবে (না (অপ) সাদৃশ্য ম্যাট্রিক্স), sparseMatrix ফাংশন।

সিভিতে আরও বেশ কয়েকটি প্রশ্ন রয়েছে যা এই ধারণাটি নিয়ে আলোচনা করে তবে এগুলির কোনওটিরই আর প্যাকেজগুলির সাথে লিঙ্ক করে না যা স্পার্স ম্যাট্রিকগুলিতে সরাসরি পরিচালনা করতে পারে:

  1. বৃহত এবং স্পারযুক্ত ডেটাসেটগুলি ক্লাস্টারিং
  2. ক্লাস্টারিং উচ্চ-মাত্রিক স্পার্স বাইনারি ডেটা
  3. বিরল এবং উচ্চ-মাত্রিক ক্লাস্টারিং বাস্তবায়ন সন্ধান করছে
  4. স্থান-দক্ষ ক্লাস্টারিং

এখনও অবধি, আমি আর তে ঠিক একটি ফাংশন পেয়েছি যা স্পার্স ম্যাট্রিক্সগুলিকে ক্লাস্টার করতে পারে:

স্কিম্যানস : গোলাকার কামিজ

থেকে skmeans প্যাকেজ । কোমেন দূরত্ব ব্যবহার করে । ডিজিটিম্যাট্রিক্স অবজেক্টে পরিচালনা করে। জেনেটিক কে-মানে অ্যালগোরিদম, প্লেক্লাস্ট, ক্লুটো, জিমিয়ানস এবং কিমিডায়ারগুলিকে একটি ইন্টারফেস সরবরাহ করে।

উদাহরণ:

library(Matrix)
set.seed(42)

nrow <- 1000
ncol <- 10000
i <- rep(1:nrow, sample(5:100, nrow, replace=TRUE))
nnz <- length(i)
M1 <- sparseMatrix(i = i,
                   j = sample(ncol, nnz, replace = TRUE),
                   x = sample(0:1 , nnz, replace = TRUE), 
                   dims = c(nrow, ncol))
M1 <- M1[rowSums(M1) != 0, colSums(M1) != 0]

library(skmeans)
library(cluster)
clust_sk <- skmeans(M1, 10, method='pclust', control=list(verbose=TRUE))
summary(silhouette(clust_sk))

নিম্নলিখিত অ্যালগরিদমগুলি নমিনিতপূর্ণ উল্লেখ পেয়ে যায়: এগুলি বেশিরভাগ ক্লাস্টারিং অ্যালগোরিদম নয়, তবে স্পার্স ম্যাট্রিকগুলিতে পরিচালনা করে।

এপ্রিওরি : সমিতি মাইনিংয়ের নিয়ম করে

থেকে arules প্যাকেজ । "লেনদেন" অবজেক্টগুলিতে পরিচালিত হয়, যা এনজিসিমেট্রিক্স অবজেক্ট থেকে জোর করা যায়। সুপারিশ করতে ব্যবহার করা যেতে পারে।

উদাহরণ:

library(arules)
M1_trans <- as(as(t(M1), 'ngCMatrix'), 'transactions')
rules <- apriori(M1_trans, parameter = 
list(supp = 0.01, conf = 0.01, target = "rules"))
summary(rules)

irlba : স্পার্স এসভিডি

থেকে irlba প্যাকেজ । স্পার্স ম্যাট্রিক্সে এসভিডি করে। Traditionalতিহ্যবাহী আরআর প্যাকেজগুলির সাথে ক্লাস্টারিংয়ের আগে স্পার ম্যাট্রিক্সগুলির মাত্রা হ্রাস করতে ব্যবহৃত হতে পারে।

উদাহরণ:

library(irlba)
s <- irlba(M1, nu = 0, nv=10)
M1_reduced <- as.matrix(M1 %*% s$v)
clust_kmeans <- kmeans(M1, 10)
summary(silhouette(clust_kmeans$cluster, dist(M1_reduced)))

অ্যাপক্লাস্টার : অ্যাফিনিটি প্রোপাগেশন ক্লাস্টারিং

library(apcluster)
sim <- crossprod(M1)
sim <- sim / sqrt(sim)
clust_ap <- apcluster(sim) #Takes a while

সেখানে অন্য কোন কাজ রয়েছে?


আপনি কি "প্রচুর জিরো" বা "প্রচুর মূল্যবোধের মূল্যবান" হিসাবে স্পার্স বলতে চান?
সিবিলেটগুলি 14:52

Stats.stackexchange.com/help/dont-ask এ একাধিক মানদণ্ড অনুসারে এই প্রশ্নটি অফ-টপিক হিসাবে উপস্থিত বলে মনে হচ্ছে : প্রতিটি উত্তর সমানভাবে বৈধ হবে, আপনি প্রদত্ত উত্তরগুলি ছাড়াও আরও উত্তর প্রত্যাশা করবেন, এবং আসার কোনও সমস্যা নেই সমাধান।
শুক্র

আমি বুঝতে পেরেছি এটি বন্ধ হয়ে গেছে, তবে আমি একই ব্রাউজ করার সাথে সাথে আমি আপনার সমস্ত প্রশ্নের উপর দিয়ে যাচ্ছি;) আমি এই লাইব্রেরিটি খুঁজে পেয়েছি যা স্প্রেস
মার্কেড

1
@ মারকেড অনেক ধন্যবাদ! এটি সত্যিই খুব খারাপ সফ্টওয়্যার প্রস্তাবনাগুলি এখানে অফ-টপিক, কারণ আমি তাদের জন্য জিজ্ঞাসা করার জন্য অনলাইনে আর কোথাও খুঁজে পাইনি।
Zach

3
আবারও খুব দরকারী প্রশ্নটি বন্ধ হয়ে গেছে :( আপনি যদি উত্তরটি জানেন না তবে কেবল কাছেই ভোট দেবেন না!
মনস্টার এমএমআরপিজি

উত্তর:


1

আমি আর ব্যবহার করি না এটি প্রায়শই খুব ধীর এবং এর সাথে কোনও ইনডেক্সিং সমর্থন নেই। তবে সফ্টওয়্যার প্রস্তাবনাগুলি যাইহোক অফ-বিষয় হিসাবে বিবেচিত হয়।

নোট করুন যে প্রচুর পরিমাণে অ্যালগরিদম আপনার কীভাবে আপনার ডেটা সংরক্ষণ করবেন সেদিকে খেয়াল রাখে না। আপনি যদি একটি বিচ্ছিন্ন ম্যাট্রিক্স পছন্দ করেন তবে এটি আপনার পছন্দ হওয়া উচিত, অ্যালগরিদম পছন্দ নয়।

যে সমস্ত লোক বেশি পরিমাণে আর ব্যবহার করেন তারা ম্যাট্রিক্স অপারেশনে চিন্তাভাবনায় আটকে যান (কারণ এটি আরে দ্রুত কোড লেখার একমাত্র উপায়)। তবে তা ভাবনার সীমিত উপায়। উদাহরণস্বরূপ কে-অর্থ: এটি পাত্তা দেয় না। বিশেষত, এটি জুটিযুক্ত দূরত্বগুলি মোটেও ব্যবহার করে না। বৈকল্পিক অবদান গণনা করার জন্য এটির কেবল একটি উপায় প্রয়োজন; যা স্কোয়ারড ইউক্লিডিয়ান দূরত্ব গণনার সমান।

বা ডিবিএসসিএন। এটির জন্য কেবল "প্রতিবেশী" ভবিষ্যদ্বাণী করা দরকার। এটি নির্বিচারে গ্রাফ দিয়ে কাজ করতে পারে; এটি কেবল যে ইউক্লিডিয়ান দূরত্ব এবং এপসিলন প্রান্তিকতা এটি ব্যবহার করে এর আশেপাশের গ্রাফের গণনার সবচেয়ে সাধারণ উপায়।

পিএস আপনার প্রশ্ন খুব সুনির্দিষ্ট নয়। আপনি কি স্পার ডেটা ম্যাট্রিক্স বা স্পার সাদৃশ্য ম্যাট্রিক্সগুলিকে উল্লেখ করেন ?


1
স্পার্স ডেটা ম্যাট্রিক্স
Zach

বেশিরভাগ অ্যালগরিদম বিচ্ছিন্ন ডেটা ম্যাট্রিক্সে পরিচালনা করতে পারে। যেমন, এগনেস, পাম, DBSCAN, অপটিক্স, ক্লারা, ...
Anony-হেয়ার ক্রিম -Reinstate মনিকা

আপনি এমনকি আর
জানলেও

আমি আর জানি, সম্ভবত গড় আর ব্যবহারকারীর চেয়ে আরও ভাল। আমি আর-তে অ-মানক মূল্যায়ন জানি এবং আমি জানি যে বেশিরভাগ মডিউলগুলি সি-তে লেখা থাকে, সুতরাং আপনি যখন একটি স্পার্স ম্যাট্রিক্স পাস করেন, এটি আসল কোডে পাস করার আগে এটি প্রথমে একটি অর্থে ম্যাট্রিক্সে অনুলিপি করা হয়। এবং প্রতিটি প্যাকেজ আলাদা আলাদা পদ্ধতি ব্যবহার করে ... এটি দক্ষ নয়। আপনার দক্ষতা বা ভাল সংহতকরণ বা পিছনের দিকের সামঞ্জস্য বা সমন্বিত বিকাশের প্রয়োজন হলে আপনি আর নির্বাচন করেন না।
অ্যানি-মাউস-রিনস্টেট মনিকা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.