我有一个包含62列和181408行的矩阵,我将使用k均值聚类。我理想上喜欢的是一种确定最佳群集数量的方法。我尝试过使用集群包中的clusGap
(下面的可重现代码)实现差距统计技术,但是这会产生几个与Windows中的向量大小(122 GB)和memory.limit
问题有关的错误消息,以及OS X中的“Error in dist(xs) : negative length vectors are not allowed
” 。有没有人有任何建议,可用于确定具有大型数据集的最佳群集数量的技术?或者,或者,如何让我的代码功能(并且不需要几天时间完成)?谢谢。确定具有大数据集的k均值的最佳聚类数
library(cluster)
inputdata<-matrix(rexp(11247296, rate=.1), ncol=62)
clustergap <- clusGap(inputdata, FUN=kmeans, K.max=12, B=10)
这与您的问题的第二部分有关大数据上的kmeans相关:http://stackoverflow.com/q/6372397/1036500 – Ben 2013-03-13 03:33:32