0
据我所知,HAC在连接功能方面有几个选项。您有:如何选择分层凝聚聚类的联动方法?
- 产生单联动“散乱”集群
- 产生紧张,球团
- 平均连接是那种在两个
- Ward的方法之间的妥协,这是完全连锁基于更多的方差比实际距离
我想弄清楚的是,我怎么知道这些我想使用哪一个?是否有某些数据集的“零散”簇比球形簇更好?还是它更多地是我打算对聚类数据做的功能?
据我所知,HAC在连接功能方面有几个选项。您有:如何选择分层凝聚聚类的联动方法?
我想弄清楚的是,我怎么知道这些我想使用哪一个?是否有某些数据集的“零散”簇比球形簇更好?还是它更多地是我打算对聚类数据做的功能?
这取决于您的数据。
单连接在干净的数据上工作得很好。
如果你有脏数据,其他联系可能会更好。
病房类似于k-means。如果你想谈论质心和完全分割成不相交子集的数据,这可能是一个不错的选择。
另一个问题是只有SLINK(对于单链路)速度很快。所有其他人通常在O(n^3)中工作,因此它们不适用于大型数据集。将此与例如DBSCAN运行在O(n日志n)如果做得好,或kmeans在O(n)...
你究竟干净的数据是什么意思? –
没有太多噪音和异常值。 –