2012-06-04 73 views
6

当我们说我们正在WEKA frmework中评估集群时,我们的意思是什么?聚类是一种无监督的分组对象方法。当我们说要评估结果时,我们的意思是什么?此外,除此之外,当我们说我们正在评估训练数据本身的集群时,这意味着什么?什么是WEKA中集群的评估?

感谢 阿布舍克小号

+1

Weka在聚类方面非常不灵敏。如果你对聚类感兴趣(这比分类更复杂),寻找替代品。关于评估的一些指标:配对计数f-measure,调整兰德指数(ARI),Fowlkes-Mallows指数,Jaccard指数,BCubed指标等 - 我认为Weka没有这些指标。 –

回答

9

书面上this页:

评价 Weka的评估聚类的方式取决于您选择的集群模式。有四种不同的群集模式可用(如群集模式面板中的按钮):

  1. Use training set(默认)。在生成聚类之后,Weka根据聚类表示将训练实例分类为聚类,并计算落入每个聚类的实例的百分比。例如,k-means生成的上述聚类在簇0中显示43%(6个实例),在簇1中显示57%(8个实例)。
  2. Supplied test setPercentage split Weka可以评估群集在​​单独的测试数据上表示是概率性的(例如对于EM)。
  3. Classes to clusters evaluation。在这种模式下,Weka首先忽略类属性并生成聚类。然后,在测试阶段,根据每个群集内类属性的大多数值,将类分配给群集。然后根据这个赋值计算分类错误,并显示相应的混淆矩阵。下面显示了k-means的一个例子。
+0

感谢您的参考和详细的答案。 –

+0

任何想法如何对集群进行集群评估对EM有效?在确定多数值时,它是否通过参与集群的可能性来衡量实例? – kylejmcintyre

+0

sicco你可以检查这个问题,如果可能的话:http://stackoverflow.com/questions/32404742/how-to-calculate-clustering-success-pre-assigment-true-classes-are-known – MonsterMMORPG