আমার কাছে কয়েকটি সিরিজের আউটলেটগুলির বিক্রয় ডেটা রয়েছে এবং সময়ের সাথে সাথে তাদের কার্ভগুলির আকারের ভিত্তিতে সেগুলি শ্রেণিবদ্ধ করতে চাই। ডেটা মোটামুটি এ জাতীয় দেখাচ্ছে (তবে স্পষ্টতই এলোমেলো নয় এবং এর কিছু গুম তথ্য রয়েছে):
n.quarters <- 100
n.stores <- 20
if (exists("test.data")){
rm(test.data)
}
for (i in 1:n.stores){
interval <- runif(1, 1, 200)
new.df <- data.frame(
var0 = interval + c(0, cumsum(runif(49, -5, 5))),
date = seq.Date(as.Date("1990-03-30"), by="3 month", length.out=n.quarters),
store = rep(paste("Store", i, sep=""), n.quarters))
if (exists("test.data")){
test.data <- rbind(test.data, new.df)
} else {
test.data <- new.df
}
}
test.data$store <- factor(test.data$store)
আমি জানতে চাই যে কীভাবে আমি আর- তে কার্ভগুলির আকারের উপর ভিত্তি করে গুচ্ছ করতে পারি I আমি নিম্নলিখিত পদ্ধতির বিষয়টি বিবেচনা করেছি:
- সম্পূর্ণ স্টোর সিরিজের জন্য প্রতিটি স্টোরের ভার0কে 0.0 এবং 1.0 এর মধ্যে মান হিসাবে রুপান্তরিত করে একটি নতুন কলাম তৈরি করুন।
- আর এ
kml
প্যাকেজটি ব্যবহার করে এই রূপান্তরিত কার্ভগুলি ক্লাস্টার করুন ।
আমার দুটি প্রশ্ন আছে:
- এটি কি যুক্তিসঙ্গত অনুসন্ধানের পদ্ধতি?
- আমি কীভাবে আমার ডেটা অনুদায়ী ডাটা ফর্ম্যাটে রূপান্তর করতে পারি যা
kml
বুঝতে হবে? যে কোনও আর-র স্নিপেটগুলি প্রশংসিত হবে!
kml
?