如何最佳K的K - 均值算法

可能重复：
How do I determine k when using k-means clustering?如何最佳K的K - 均值算法

如何选择K个开始，如果我不知道这个数据？

有人可以帮助我在选择K.

感谢纳文

2011-06-02 Navin

重要的是要认识到，没有一个完全有原则的聚类方法。通常，您必须隐式指定密度。对于k-means，您将通过簇的数量指定密度。对于平均移位，你必须选择邻域大小。即使您使用一些标准来选择群集数量或邻域大小，您仍然选择使用该方法。 – YXD 2011-06-02 09:48:20

您可以通过查看[clustering]（http://stats.stackexchange.com/questions/tagged/clustering）标签在[CrossValidated]（http://stats.stackexchange.com/）上找到一些有用的线索。 – chl 2011-06-03 09:39:18

精确重复@ http://stackoverflow.com/q/1793532/353278 && http://stackoverflow.com/q/5933970/353278 – Jeff 2011-06-06 04:20:46

-5

说真的，你想知道什么？你想让我们告诉你一些号码吗？或者一个策略如何找到最佳k？你必须阅读一本关于k-means的书或其他资源，我很确定它覆盖了那里。

也有一些是在维基百科上关于它：

http://en.wikipedia.org/wiki/Determining_the_number_of_clusters_in_a_data_set

在你使用的算法，了解它。

来源

2011-06-02 09:34:31

其基本思想是评估样本数据上的聚类评分，通常是聚类内部的距离和聚类之间的距离。这个度量越多，聚类越好，基于这个度量，你可以选择最好的聚类串参数。其中一个指标可以在这里找到http://alias-i.com/lingpipe/docs/api/com/aliasi/cluster/ClusterScore.html

来源

2011-06-03 07:04:55 yura

如何最佳K的K - 均值算法

回答

相关问题