2016-07-27 33 views
0

我已经在数据集上实现了k-means聚类。我试图通过查看快速采矿者给出的平行和偏差图来分析聚类k。分析簇均匀性并使用RapidMiner中的簇距离性能算子

其目的是分析簇的均匀性。在给定的各种性能模型中,运算符“簇距离性能”运算符用于k均值聚类的结果。

  1. 是否有其他运营商可以提供此类分析?
  2. 我拥有的数据集具有较大的数值向量(在 数百和数千),我也有一个数据集,其极小值(小数点后5至8位)极其小。

我不知道如何解释,我从运营商“群集距离性能”得到的结果如下图所示

重心表结果

enter image description here

和高性能矢量操作结果是

enter image description here 有人可以帮我这个吗?尽管我认为Davies Bouldin的价值越小,集群越好。

回答

0

如果您试图找到“最佳”聚类,那么您必须改变k并计算不同的聚类有效性度量,以比较k随k变化而变化的方式。 Davies-Bouldin通常是一个不错的选择,因为“最好”的信号最低。最好的定义是从用于构造有效性度量(基于声音和逻辑技术)的数学技术的角度来看的,但人们总是必须查看聚类来确定结果是否实际上意味着什么。

+0

如果您需要一些关于编写一个过程来遍历k的所有可能值并计算有效性度量的指导,您可以在这里看到一个示例http://rapidminernotes.blogspot.co.uk/2011/03/counting-集群部分-ii.html – awchisholm