-3

我一直在试验K均值聚类算法。 我有一个数据集的电影评论与我摆弄,尝试使用我手动(以及编程)定义的功能将它们聚类。 我开始意识到,在聚类之前不可能知道使用k的值,而且我不确定我自己想要的聚类数量。我想我可以只获得集群并手动观察以前未观察到的相同集群中实体的相似性。如何调查群集质量?

我的问题有以下几点:

  1. 将在同一集群的元素真的有关?

  2. 群集的“质量”在每个群集中是否相同?我如何验证它?

回答

0

关于你的第一个问题,它不是一个真正的好问题兄弟,因为我们的数据没有标签,我们使用聚类算法来标记它(你知道集群后,我们有集群1,2,... ,或A,b,C或曾经标签要分配的)

和你的第二个问题:

聚类您的数据后,有一些措施,你可以用它来了解如何好,你执行你的集群看看这个

http://www-users.cs.umn.edu/~kumar/dmbook/dmslides/ 

或简单的分析结果的方法是计算每个聚类的熵度量,熵度量越少结果越好(如果聚类的数量等于数据点的数量,那么可以得到最佳的熵,请考虑关于它)

从信息理论的角度来看,熵度量代表了你正在查看的数据点中存储了多少信息(同样的数据越少它们可以携带信息,想想看DC < 1>信号始终在<(最低熵)>,它是我们唯一能从中获得的信息,现在想想这个信号< 01011110 ...>它可以有更多的不同,您可以从中获得更多的信息<(高熵)> ...)返回t o业务,现在在聚类之后,我们希望每个聚类中的数据点相似,因此每个聚类中我们的数据点越相似,熵度量越少。 祝你好运!