0

据我所知,HAC在连接功能方面有几个选项。您有:如何选择分层凝聚聚类的联动方法?

  • 产生单联动“散乱”集群
  • 产生紧张,球团
  • 平均连接是那种在两个
  • Ward的方法之间的妥协,这是完全连锁基于更多的方差比实际距离

我想弄清楚的是,我怎么知道这些我想使用哪一个?是否有某些数据集的“零散”簇比球形簇更好?还是它更多地是我打算对聚类数据做的功能?

回答

1

这取决于您的数据。

单连接在干净的数据上工作得很好。

如果你有脏数据,其他联系可能会更好。

病房类似于k-means。如果你想谈论质心和完全分割成不相交子集的数据,这可能是一个不错的选择。

另一个问题是只有SLINK(对于单链路)速度很快。所有其他人通常在O(n^3)中工作,因此它们不适用于大型数据集。将此与例如DBSCAN运行在O(n日志n)如果做得好,或kmeans在O(n)...

+0

你究竟干净的数据是什么意思? –

+0

没有太多噪音和异常值。 –