2011-04-26 191 views
7

任何人都可以解释WEKA中K-Means聚类的输出实际上意味着什么。WEKA K-Means聚类

例如

kMeans 


Number of iterations: 9 

Within cluster sum of squared errors: 9434.911100488926 

Missing values globally replaced with mean/mode 

Cluster centroids: 

        Cluster# 
Attribute   Full Data   0   1       
         (400)  (310)  (90) 
================================================= 
competency134  0.0425  0.0548   0 
competency207  0.0425  0.0548   0 
competency263   0.01  0.0129   0 
competency264   0.01  0.0129   0 
competency282   0.01  0.0129   0 
competency289   0.01  0.0129   0 

什么列中的数字实际上意味着,它说聚类中心上表中,但怎么可能,以确定哪些两个集群的质心?

如果有人能解释什么数字意味着我会非常感激。

如果任何人有任何想法如何完成集群的轮廓评估发现,也将是伟大的。

感谢

回答

3

第一栏为您提供了总人口重心。第二列和第三列分别给出了簇0和簇1的质心。每行给出特定维度的质心坐标。我相信你需要刷上你的K-means。找到质心是算法的重要组成部分。质心是特定运行算法的结果,并不是唯一的 - 不同的运行可能会生成不同的质心集。

详情请参阅Michael Abernethy's description of Weka clustering

-1

如果属性是标称属性,则为集群中的属性使用最频繁的值。 如果属性是数字,请使用群集中属性的平均值。 检查this link了解更多详情。

3

只是第一步,

  1. 保存在可视化标签作为ARFF文件中的情节。

  2. 用weka打开它,点击编辑,你会自动看到每个实例属于哪个簇。

  3. 复制此表到Excel(可视化更容易)

  4. 使用Excel或MATLAB找到silhoutte,凝聚力,分离的经典方法。

+0

我试过了,但我只能看到数据但没有集群号码? – Atul 2013-04-17 07:19:23

+0

我试图应用过滤器(AddCluster),它工作。 – Atul 2013-04-17 07:46:21

+0

这项工作!无需应用过滤器。只需将weka集群可视化窗格中的文件保存为arff文件并以weka打开即可。将创建一个名为“cluster”的新属性。 – Supun 2014-02-18 16:24:14

0

首先聚类是一种描述性的统计方法。其次,算法Kmeans需要事先输入聚类数量,以找到聚类的最佳数量,几种统计方法。第三,数字数据的质心是数据的算术平均值,因此这些数据代表组数据。