2015-08-31 37 views
0

考虑数据集,用户可以在3个活动中选择,我们必须为他们的第10个活动的选择数据。示例数据:如何群集连续分类数据中的R

for (i in 1:10) 
{ 
    # sample from list of 3 strings using a set probability 
    x <- sample(c("A", "B", "C"), 1000, replace=TRUE, prob=c(0.5, 0.3, 0.2)) 
    # assign to variable created on the fly 
    assign(paste("cat", i, sep=""), x) 
} 

first10 <- data.frame(cat1, cat2, cat3, cat4, cat5, cat6, cat7, cat8, cat9, cat10) 

R中根据活动顺序对用户进行群集的最佳方法是什么?

我在环视上看了一下,最类似的问题是关于如何在R中分类分类数据(这是分析的一部分),但这本身并没有考虑到序列性质数据。是否有R软件包非常适合这种分析?

回答

0

查找频繁项集挖掘,而不是集群。

大多数聚类方法是连续数字数据,并且假设一些矢量场。他们考虑到每个方面。

频繁模式,但是,可以是仅一部分,如果一个序列,一个序列可以表现出这些图案的多个(或没有),并且图案可以具有间隙其间。所有这些属性通常都是可取的。

+0

还有用于聚类分类数据,如Rmixmod或聚类基于高尔的距离的距离矩阵的方法。通常情况下,我们有一个混合数据集,在这里可以进行聚类。例如见:http://stats.stackexchange.com/questions/15635/robust-cluster-method-for-mixed-data-in-r 我想建议的方法很有趣,但它的寻址一个不同的问题。这相当于在连续数据集中寻找高度相关的变量(或者可能使用因子分析),但这与为案例创建分类模型不同。 – Runic