我正在评估群集某些数据所需的群集数量是多少。确定群集的最佳数量和Davies-Bouldin指数?
我知道这可以使用戴维斯 - 鲍尔丁指数(DBI)。
要使用DBI,您必须计算任意数量的集群,并且将DBI最小化的集群对应于所需的正确集群数量。
的问题是:
怎么知道2簇比使用DBI 1个集群更好?那么,当我只有一个群集时,如何计算DBI?
我正在评估群集某些数据所需的群集数量是多少。确定群集的最佳数量和Davies-Bouldin指数?
我知道这可以使用戴维斯 - 鲍尔丁指数(DBI)。
要使用DBI,您必须计算任意数量的集群,并且将DBI最小化的集群对应于所需的正确集群数量。
的问题是:
怎么知道2簇比使用DBI 1个集群更好?那么,当我只有一个群集时,如何计算DBI?
只考虑所有簇的平均值DBI
显然不是一个好主意。
当然,增加的簇的数目 - k
,而不受处罚,将始终降低DBI的量在所得聚类,为零DBI
极端情况下,如果每个数据点被认为是其自己的集群(因为每个数据点与自己的质心重叠)。
如何知道2个集群是否优于1个集群使用DBI?那么,当我只有一个群集时,如何计算DBI?
因此,如果只使用平均值DBI
作为性能指标,很难说哪一个更好。
一个很好的实用方法是使用Elbow method。
另一种方法查看作为群集数量函数解释的方差百分比:您应该选择一些群集,以便添加另一个群集不会给出更好的数据建模。更准确地说,如果你绘制了聚类所解释的方差相对于聚类数量的百分比,那么第一类聚类会增加很多信息(解释很多方差),但是在某一点上,边际增益会下降,从而给出一个角度图形。在这一点上选择聚类的数量,因此是“肘标准”。
与各自以选择最佳聚类数其他一些很好的选择: