我正在尝试与K-Means一起实现Canopy聚类算法。我在网上做了一些搜索,说使用Canopy聚类来获得你的初始起始点,并将其馈入K-means,问题是,在Canopy聚类中,你需要为树冠指定2个阈值:T1和T2,其中内部阈值中的点与该冠层紧密相关,并且更宽阔的阈值中的点与该冠层较少关联。这些阈值或距冠层中心的距离是如何确定的?如何选择Canopy Clustering的T1和T2阈值?
问题上下文:
我试图解决的问题是,我有一组数字,如[1,30]或[1250]具有约50集大小可以有重复的元素并且它们也可以是浮点数,比如8,17.5,17.5,23,66 ......我想要找到最佳聚类或数字集合的子集。
所以,如果雨棚聚类K均值是一个不错的选择,那么我的问题依然存在:你怎么发现的T1,T2值?如果这不是一个好的选择,是否有更好,更简单但有效的算法?
这是另一个类似的问题http://stats.stackexchange.com/questions/13895/how-do-i-algorithmically-determine-values-of-t1-t2-for-canopy-clustering – cyraxjoe
你有没有这运气好吗?我正在寻找使用Canopy Clustering来查找一个初始集群来提供给K-Means。我可能只是使用[跳转方法],如[这里]所述(http://en.wikipedia.org/wiki/Determining_the_number_of_clusters_in_a_data_set)(这听起来与@rpd在他的回答中描述的方法类似),但如果您已经找到确定T1和T2的好方法我想使用Canopy Clustering来代替。 – JesseBuesking