2013-01-17 18 views
5

我正在评估群集某些数据所需的群集数量是多少。确定群集的最佳数量和Davies-Bouldin指数?

我知道这可以使用戴维斯 - 鲍尔丁指数(DBI)。

要使用DBI,您必须计算任意数量的集群,并且将DBI最小化的集群对应于所需的正确集群数量。

的问题是:

怎么知道2簇比使用DBI 1个集群更好?那么,当我只有一个群集时,如何计算DBI?

回答

5

只考虑所有簇的平均值DBI显然不是一个好主意。

当然,增加的簇的数目 - k,而不受处罚,将始终降低DBI的量在所得聚类,为零DBI极端情况下,如果每个数据点被认为是其自己的集群(因为每个数据点与自己的质心重叠)。

如何知道2个集群是否优于1个集群使用DBI?那么,当我只有一个群集时,如何计算DBI?

因此,如果只使用平均值DBI作为性能指标,很难说哪一个更好。

一个很好的实用方法是使用Elbow method

另一种方法查看作为群集数量函数解释的方差百分比:您应该选择一些群集,以便添加另一个群集不会给出更好的数据建模。更准确地说,如果你绘制了聚类所解释的方差相对于聚类数量的百分比,那么第一类聚类会增加很多信息(解释很多方差),但是在某一点上,边际增益会下降,从而给出一个角度图形。在这一点上选择聚类的数量,因此是“肘标准”。

enter image description here

与各自以选择最佳聚类数其他一些很好的选择: