可能重复:
How do I determine k when using k-means clustering?如何最佳K的K - 均值算法
如何选择K个开始,如果我不知道这个数据?
有人可以帮助我在选择K.
感谢 纳文
可能重复:
How do I determine k when using k-means clustering?如何最佳K的K - 均值算法
如何选择K个开始,如果我不知道这个数据?
有人可以帮助我在选择K.
感谢 纳文
说真的,你想知道什么?你想让我们告诉你一些号码吗?或者一个策略如何找到最佳k
?你必须阅读一本关于k-means的书或其他资源,我很确定它覆盖了那里。
也有一些是在维基百科上关于它:
http://en.wikipedia.org/wiki/Determining_the_number_of_clusters_in_a_data_set
在你使用的算法,了解它。
其基本思想是评估样本数据上的聚类评分,通常是聚类内部的距离和聚类之间的距离。这个度量越多,聚类越好,基于这个度量,你可以选择最好的聚类串参数。其中一个指标可以在这里找到http://alias-i.com/lingpipe/docs/api/com/aliasi/cluster/ClusterScore.html
重要的是要认识到,没有一个完全有原则的聚类方法。通常,您必须隐式指定密度。对于k-means,您将通过簇的数量指定密度。对于平均移位,你必须选择邻域大小。即使您使用一些标准来选择群集数量或邻域大小,您仍然选择使用该方法。 – YXD 2011-06-02 09:48:20
您可以通过查看[clustering](http://stats.stackexchange.com/questions/tagged/clustering)标签在[CrossValidated](http://stats.stackexchange.com/)上找到一些有用的线索。 – chl 2011-06-03 09:39:18
精确重复@ http://stackoverflow.com/q/1793532/353278 && http://stackoverflow.com/q/5933970/353278 – Jeff 2011-06-06 04:20:46