কোলাহলপূর্ণ ডেটা বা আউটলিয়ারদের সাথে ক্লাস্টারিং


9

আমার কাছে দুটি ভেরিয়েবলের শোরগোলের ডেটা রয়েছে।

x1 <- rep(seq(0,1, 0.1), each = 3000)
set.seed(123)
y1 <- rep (c(0.2, 0.8, 0.3, 0.9, 0.65, 0.35,0.7,0.1,0.25, 0.3, 0.95), each = 3000)
set.seed(1234)
e1 = rnorm(length(x1), 0.07,0.07)
set.seed(1223)
e2 = rnorm(length(x1), 0.07,0.07)
set.seed(1334)
yn <- rnorm(20000, 0.5,0.9)
set.seed(2344)
xn <- rnorm(20000, 0.5,0.9)
y <- c(y1 + e1,yn) 
x <- c(x1 + e2, xn) 
plot(x,y,  xlim=c(0,1.2), ylim = c(0,1.2), pch = ".", col = "gray40") 

আমি চাক্ষুষরূপে দেখতে পাচ্ছি সম্ভাব্য 10 টি ক্লাস্টার নিবিড় দৃষ্টিতে রয়েছে।

এখানে চিত্র বর্ণনা লিখুন

তবে পুরো তথ্যটিতে অনেকগুলি পয়েন্ট ছড়িয়ে পড়েছে:

plot(x,y,   pch = ".", col = "gray40") 

এখানে চিত্র বর্ণনা লিখুন

আমি 10 টি ক্লাস্টার তৈরি করতে চাই। আমি কে-মানে ক্লাস্টার বিশ্লেষণ চেষ্টা করেছি।

xm1 <- cbind(x,y)
cl1 <- kmeans(xm1, 10)
colrs <- c("red", "green", "blue1", "pink", "green4","tan", 
 "gray40", "yellow", "black", "purple") 
plot(xm1, col = colrs[cl1$cluster], pch = ".", xlim=c(0,1.2), ylim = c(0,1.2))

এখানে চিত্র বর্ণনা লিখুন

plot(xm1, col = colrs[cl1$cluster], pch = ".")

এখানে চিত্র বর্ণনা লিখুন

যে কোনও উপায়ে আছে (কর্নেল কে-মানে, নিকটতম প্রতিবেশী) যা এই ধরণের ডেটাতে আরও ন্যায়বিচার করতে পারে। যদি তা হয় তবে আমি কীভাবে এটি করতে পারি?


1
আপনার এতদিন যা আছে তাতে দোষ কি? আপনার যা আছে ( কে-মানে ক্লাস্টার বিশ্লেষণ ) অগ্রহণযোগ্য কেন?
স্টিভ এস

ডিবিস্কেন বা অপটিক্স অ্যালগরিদমগুলি দেখুন ( en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Clustering/… দেখুন )
জর্জিও স্পিডিক্যাটো

উত্তর:


7

আপনার ডেটা গাউসিয়ান মিশ্রণগুলির সমন্বিত বলে মনে হচ্ছে, গাউসিয়ান মিশ্রণ মডেলিং চেষ্টা করুন (ওরফে: ইএম ক্লাস্টারিং)। এই ধরণের ডেটাতে কে-মাধ্যমের তুলনায় এটির চেয়ে বেশি ফলাফল পাওয়া উচিত।

যদি আপনার "শব্দ" অভিন্ন বিতরণ করা হয় তবে আপনি আপনার মিশ্রণ মডেলটিতে অভিন্ন বিতরণও যুক্ত করতে পারেন।

আপনার ডেটা যদি খুব কম পরিষ্কার হয় তবে ডিবিএসসিএন, মিনশিফ্ট, অপটিক্স, এইচডিবিএসসিএন *, ... - ঘনত্বভিত্তিক ক্লাস্টারিগ এই ডেটার জন্য উপযুক্ত বলে মনে হচ্ছে। ডিবিএসসিএএন শব্দ করার পক্ষেও খুব সহনশীল ("এন" শব্দটি করার জন্য)।


4

আমি আপনাকে এই নিবন্ধটি দেখার পরামর্শ দিই । লেখকরা দৃust় পদ্ধতিটি প্রস্তাব করেন যেখানে বিদেশীদের সরানো হয় এবং বাকী ডেটা গুচ্ছ করে দেওয়া হয়। এ কারণেই তারা পদ্ধতিটিকে "ছাঁটাই" বলে অভিহিত করেছেন। এছাড়া একটি r- প্যাকেজ ছিল tclust কিন্তু অনুযায়ী এই , এটা Cran থেকে সরানো হয়েছে। যাইহোক, নিবন্ধটি পড়ার পক্ষে মূল্যবান।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.