2017-06-15 37 views
-3

我有一个混合数据集(有因子和数字变量类型),我想做一些聚类分析。这样我就可以研究每个群集中的条目,以说明它们的共同点。在R中对混合数据集进行聚类

我知道对于这种类型的数据集,使用的距离是“高尔距离”。

这是我迄今所做的:

cluster <- daisy(mydata, metric = c("euclidean", "manhattan", "gower"), 
       stand = FALSE, type = list()) 
try <- agnes(cluster) 
plot(try, hang = -1) 

上面给了我一个树状图,但我有我的数据2000个条目,我无法在聚类结束识别各个条目。另外,我希望能够从树状图中提取聚类。

+0

这是什么,到目前为止我已经做了: 集群< - 菊花(MYDATA,公制= C( “欧氏”, “曼哈顿”, “高尔”),立=假,类型=列表())尝试< - agnes(集群)情节(尝试,挂= -1) 上面给了我树状图,但我有2000条目在我的数据,我无法确定个人条目在树状图的末尾。另外,我希望能够从树状图中提取聚类。 – Cpri

+0

对于Gower距离,请查看'cluster'包中的函数'daisy'。 关于如何做群集,一个很好的开始将是堆栈溢出的文档 。尝试[hclust](https://stackoverflow.com/documentation/r/8084/hierarchical-clustering-with-hclust#t=201706151323312767049) – G5W

+0

'agnes'是一种分层方法,您需要决定要切割的位置该树为了获得集群成员资格。这与'hclust'的工作方式非常相似。再次看看这个文档来看一个广泛的例子会很好。 – G5W

回答