2013-04-04 21 views
0

我创建了两个聚类算法:k-means和divisive,也许以后我会加入aglomerative。我必须分析它们对于高维数据有多好,为此我必须计算到聚类中心的平均/总距离。在k-means的情况下,很容易,我有质心,但如何在分裂/收敛算法中找到中心? 虽然我在这里:目前我已经实施了Euclede's,Manhattans和Pearsons距离,还有更多可以使用的距离度量吗? 在此先感谢!聚类分析 - 找到一个集群的中心

回答

0

我的工作的目标是分析这些集群,当他们必须从具有高维度的数据创建集群时。很难对它们进行评估,而且结果也不太可能完全公平,所以我将使用一个群集中记录之间的平均累积距离和不同群集中两个记录之间的最小距离。 关于如何在层次聚类算法中找到聚类中心的方法 - 用于k-means的相同公式,用于在每次迭代后重新计算质心。

1

您可能希望得到这本书:

  • 百科全书距离,米歇尔·德萨,埃琳娜Deza酒店,590页。

其中涵盖了许多可用的替代距离功能。

大概几一百个不同的距离 ...

但是,您还需要考虑你的评价方法 - 如果它是基于质心,它朝着k均值偏差。所以比较可能是不公平。此外,如果您使用人为数据,请确保您不会不公平地偏好另一种方法,因为该方法与您生成数据的方式相关(例如,如果生成高斯聚类,则倾向于使用k-means )。