计算聚类的F-measure

任何人都可以帮助我统计计算F-measure吗？我知道如何计算召回和精度，但不知道给定的算法如何计算一个F-measure值。计算聚类的F-measure

作为为例，假设我的算法创建米集群，但我知道有ñ集群为相同的数据（如由另一基准算法创建）。

我找到了一个pdf，但没有用，因为我得到的集合值大于1. pdf的参考是F Measure explained。具体来说，我已经阅读了一些研究论文，其中笔者根据F-measure对两种算法进行了比较，他们将0到1之间的值集中在一起。如果仔细阅读上面提到的pdf，公式为F（C，K ）=Σ| ci |/N * max {F（ci，kj）}
其中ci是参考簇& kj是由其他算法创建的簇，在这里我从1运行到n & j从1运行到m.Let say | c1 | = 218这里按照pdf N = m * n假设m = 12和n = 10，并且对于j = 2我们得到了最大F（c1，kj）。当然，F（c1，k2）介于0和1之间，但通过上述公式计算的结果值我们将得到高于1的值。

来源

2012-10-04 mahesh cs

你可以发布你的召回和精度？ IINM如果他们介于0和1之间，他们的平均值（请参阅您的参考）应该<1（请检查您的公式）。如果他们不是，你的算法很可能是错误的。 –

是的，请详细说明您如何获得精确度和召回率。他们必须在0到1才有意义。否则，F1也会走出界限。你可能有*重叠*集群？然后它不会工作;而且我不知道确实允许评估重叠群集的扩展。 –

我认为这是指：http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-clustering-1.html –

因此，例如给定，

 
      D = {1, 2, 3, 4, 5, 6}

和分区，

 
      P = {1, 2, 3}, {4, 5}, {6}, and 
      Q = {1, 2, 4}, {3, 5, 6}

其中设置由我们的算法创建P和设置由我们熟知的标准算法创建Q

 
      PairsP = {(1, 2), (1, 3), (2, 3), (4, 5)}, 
      PairsQ = {(1, 2), (1, 4), (2, 4), (3, 5), (3, 6), (5, 6)}, and 
      PairsD = {(1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 3), (2, 4), 
         (2, 5), (2, 6), (3, 4), (3, 5), (3, 6), (4, 5), (4, 6), (5, 6)}

so，

 
      a = | PairsP intersection PairsQ | = |(1, 2)| = 1 
      b = | PairsP- PairsQ | = |(1, 3)(2, 3)(4, 5)| = 3 
      c = | PairsQ- PairsP | = |(1, 4)(2, 4)(3, 5)(3, 6)(5, 6)| = 5

 
    F-measure= 2a/(2a+b+c)

来源

2012-10-16 12:36:57

术语f-度量本身是未指定的。这是调和平均值，通常精度和召回。其实你甚至应该说F1分数如果你的意思是未加权的版本，因为你可以对两个输入值赋予不同的权重。但没有说哪两个值是平均值（不是算术平均值意义上的！），这并没有说太多。

https://en.wikipedia.org/wiki/F1_score

注意，值必须在0-1数值范围。否则，您之前有错误。

在聚类分析中，常用的方法是将F1-Measure应用于对的精度和召回率，通常称为“pair counting f-measure”。但是你也可以在其他值上计算相同的均值。

配对计数具有很好的性质，它不直接比较聚类，因此当一个结果具有m个聚类时，另一个具有n个聚类时，结果得到良好定义。但是，对计数需要严格的分区。当元素未被群集或分配给多个群集时，配对计数度量可能很容易超出范围0-1。

E.Achtert，S.Goldhofer，H.-P. Kriegel，E. Schubert，A. Zimek
聚类评估指标和视觉支持
Int。 CONF。数据工程（ICDE 2012）
http://www.computer.org/portal/web/csdl/doi/10.1109/ICDE.2012.128

论述某些这些度量（包括兰德索引并且这样的）的和给出了“一对计数F值”的一个简单的解释。

来源

2012-10-04 11:28:45

无论这篇文章的兴趣，我认为这个问题的答案应该在最少表示**特殊意义**明确 –

我懒得通过维基百科验证它是调和的意思，而不是几何。我倾向于混淆东西。 –

@ Anony-Mousse非常感谢上述职位的作者。这对我来说非常有用。非常感谢 –

您的公式中的N，F（C，K）=Σ| ci |/N * max {F（ci，kj）}是| ci |的和总之，即它是元素的总数。你可能错误地认为它是聚类的数量，因此得到的答案大于1。如果您进行更改，您的答案将介于1和0之间。

来源

2013-08-17 17:35:07

mahesh cs提供的示例是正确的，它应该可以帮助您（和其他人）了解配对计数f-measure如何工作。

所提供的例子来自纸“表征和相似性措施评价对聚类的”大流士普菲茨纳，理查德Leibbrandt &大卫·鲍尔斯，并含有大量的关于这方面的有用信息。

来源

2014-02-22 15:40:46 Niels

计算聚类的F-measure

回答

相关问题