确定群集的最佳数量和Davies-Bouldin指数？

我正在评估群集某些数据所需的群集数量是多少。确定群集的最佳数量和Davies-Bouldin指数？

我知道这可以使用戴维斯 - 鲍尔丁指数（DBI）。

要使用DBI，您必须计算任意数量的集群，并且将DBI最小化的集群对应于所需的正确集群数量。

的问题是：

怎么知道2簇比使用DBI 1个集群更好？那么，当我只有一个群集时，如何计算DBI？

来源

2013-01-17 Gappa

只考虑所有簇的平均值DBI显然不是一个好主意。

当然，增加的簇的数目 - k，而不受处罚，将始终降低DBI的量在所得聚类，为零DBI极端情况下，如果每个数据点被认为是其自己的集群（因为每个数据点与自己的质心重叠）。

如何知道2个集群是否优于1个集群使用DBI？那么，当我只有一个群集时，如何计算DBI？

因此，如果只使用平均值DBI作为性能指标，很难说哪一个更好。

一个很好的实用方法是使用Elbow method。

另一种方法查看作为群集数量函数解释的方差百分比：您应该选择一些群集，以便添加另一个群集不会给出更好的数据建模。更准确地说，如果你绘制了聚类所解释的方差相对于聚类数量的百分比，那么第一类聚类会增加很多信息（解释很多方差），但是在某一点上，边际增益会下降，从而给出一个角度图形。在这一点上选择聚类的数量，因此是“肘标准”。

enter image description here

与各自以选择最佳聚类数其他一些很好的选择：

来源

2013-01-22 01:13:44 greeness

确定群集的最佳数量和Davies-Bouldin指数？

回答

相关问题