1

的情况如下:使用一对计数F值评估层次聚类

我有我已经手动分配给基于其受试者的(地面)群集文件的数据集。然后我使用Hierarchical Agglomerative Clustering(HAC)来自动聚集相同的数据集。我现在试图使用计数f-measure对来评估HAC集群(如Darius Pfitzner,Richard Leibbrandt & David Powers的表征和相似性测量评估 中所述。

然而,我面临的问题是,我的手动聚类生成了平面聚类(因此聚类之间没有关系),而HAC发现的聚类是分层的。因此,在查看树状图时,根据您选择的深度(水平线),您拥有不同数量的聚类(在深度0(根节点)处,您只有1个聚类;在MAX深度处,聚类数等于数您的数据集中的元素)。

所以,我的问题现在是:

  • 我需要为了使用一对计数F值来选择深度(让我有一组固定的集群)(还是我失去了什么东西?)。
  • 如果是这样,我用什么标准来确定这个深度?

回答

2

双计数措施设计用于无重叠平板分区。

如果您尝试计算它们的重叠或分层结果,您将很容易获得[0;1]范围以外的值;所以这些方法显然不起作用。

所以是的,你必须以某种方式(例如,在一个特定的高度;或为了达到特定数量的簇)切割树,以便能够使用这种评估措施。

如何提取平坦parititioning了分级聚类结果(无论是从联动聚类,OPTICS或HDBSCAN)最近建议可以在这里找到:

为半监督一个框架和从层次聚类的无监督最佳提取
RJGB Campello的,D. Moulavi,A. Zimek,J.桑德
数据挖掘和知识发现,27(3):344-371,2013年

但我还没有使用过。这听起来非常有用,并在我的阅读清单上。

+0

谢谢你的回答。我会看看! – Niels