的情况如下:使用一对计数F值评估层次聚类
我有我已经手动分配给基于其受试者的(地面)群集文件的数据集。然后我使用Hierarchical Agglomerative Clustering(HAC)来自动聚集相同的数据集。我现在试图使用计数f-measure对来评估HAC集群(如Darius Pfitzner,Richard Leibbrandt & David Powers的表征和相似性测量评估 中所述。
然而,我面临的问题是,我的手动聚类生成了平面聚类(因此聚类之间没有关系),而HAC发现的聚类是分层的。因此,在查看树状图时,根据您选择的深度(水平线),您拥有不同数量的聚类(在深度0(根节点)处,您只有1个聚类;在MAX深度处,聚类数等于数您的数据集中的元素)。
所以,我的问题现在是:
- 我需要为了使用一对计数F值来选择深度(让我有一组固定的集群)(还是我失去了什么东西?)。
- 如果是这样,我用什么标准来确定这个深度?
谢谢你的回答。我会看看! – Niels