Q

WEKA K-Means聚类

2011-04-26 191 views 7 likes

7

任何人都可以解释WEKA中K-Means聚类的输出实际上意味着什么。WEKA K-Means聚类

例如

kMeans 


Number of iterations: 9 

Within cluster sum of squared errors: 9434.911100488926 

Missing values globally replaced with mean/mode 

Cluster centroids: 

        Cluster# 
Attribute   Full Data   0   1       
         (400)  (310)  (90) 
================================================= 
competency134  0.0425  0.0548   0 
competency207  0.0425  0.0548   0 
competency263   0.01  0.0129   0 
competency264   0.01  0.0129   0 
competency282   0.01  0.0129   0 
competency289   0.01  0.0129   0

什么列中的数字实际上意味着，它说聚类中心上表中，但怎么可能，以确定哪些两个集群的质心？

如果有人能解释什么数字意味着我会非常感激。

如果任何人有任何想法如何完成集群的轮廓评估发现，也将是伟大的。

感谢

2011-04-26 Chris Taylor

A

回答

3

第一栏为您提供了总人口重心。第二列和第三列分别给出了簇0和簇1的质心。每行给出特定维度的质心坐标。我相信你需要刷上你的K-means。找到质心是算法的重要组成部分。质心是特定运行算法的结果，并不是唯一的 - 不同的运行可能会生成不同的质心集。

详情请参阅Michael Abernethy's description of Weka clustering。

2011-05-16 07:18:59

-1

如果属性是标称属性，则为集群中的属性使用最频繁的值。如果属性是数字，请使用群集中属性的平均值。检查this link了解更多详情。

2012-03-30 09:25:24 Gaurav

3

只是第一步，

保存在可视化标签作为ARFF文件中的情节。
用weka打开它，点击编辑，你会自动看到每个实例属于哪个簇。
复制此表到Excel（可视化更容易）
使用Excel或MATLAB找到silhoutte，凝聚力，分离的经典方法。

2013-01-13 02:39:02

+0

我试过了，但我只能看到数据但没有集群号码？ – Atul 2013-04-17 07:19:23

+0

我试图应用过滤器（AddCluster），它工作。 – Atul 2013-04-17 07:46:21

+0

这项工作！无需应用过滤器。只需将weka集群可视化窗格中的文件保存为arff文件并以weka打开即可。将创建一个名为“cluster”的新属性。 – Supun 2014-02-18 16:24:14

0

首先聚类是一种描述性的统计方法。其次，算法Kmeans需要事先输入聚类数量，以找到聚类的最佳数量，几种统计方法。第三，数字数据的质心是数据的算术平均值，因此这些数据代表组数据。

2014-08-17 01:59:03 nhegroj

相关问题