R集群'纯度'度量

2012-02-12 80 views 9 likes

我在R中使用fpc包来执行集群验证。R集群'纯度'度量

我可以使用函数cluster.stats（）将我的聚类与外部分区进行比较，并计算几个指标，如Rand Index，entropy e.t.c.

不过，我要寻找一个叫“纯度”或“集群准确性”的指标，用于在http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-clustering-1.html

定义，我想知道是否有这项措施的R.

感谢的实现，切特

2012-02-12 chet

回答

我不知道一个现成的，现成的功能，但在这里是一种方式，你可以利用公式在您的链接做自己：

ClusterPurity <- function(clusters, classes) { 
    sum(apply(table(classes, clusters), 2, max))/length(clusters) 
}

在这里我们可以对一些随机的任务，在那里我相信我们预计纯度为1 /数的类测试：

> n = 1e6 
> classes = sample(3, n, replace=T) 
> clusters = sample(5, n, replace=T) 
> ClusterPurity(clusters, classes) 
[1] 0.334349

2012-02-13 00:41:09

这是短期和容易！我很少使用R，并且正在开始编写一个长功能来做到这一点。非常感谢您节省我的时间，并在R中教会我多一件事。 – chet 2012-02-16 15:49:14

@chet很棒我很高兴它有帮助。祝你好运！ – 2012-02-16 16:08:45