0

我在数据挖掘领域的初学者,要群集我的电影数据集中寻找流派组。在我的数据集中,我有26种不同类型的86部电影。我想使用群集将我的电影分组为几个流派,而不是26个。因此,例如,运行一些聚类算法后,我将留下4个集群或最适合我的数据集的任何小计。 我已经定义了我的数据集如下 M1 {G1,G2,... G26} M2 {G1,G2,... G26} 其中每个流派G1,..., G26可以存储0或1的值,0不存在,0存在。 现在我的下一个步骤是运行的k-means对集群,我想使用如一个很好的距离函数Pearson相关系数。聚类流派

我正在使用MATLAB进行实验。 我想这样做使用K = 3,4,5,6 k-均值另外我跑Hierarchial聚类。

我不确定如何确定哪个聚类结果更好。如何检查?由于我是初学者,我不知道如何在MATLAB中绘制二进制特征的集群。此外,我DONOT有知识如何使用Pearson相关系数为K-意味着距离度量。请帮忙。

回答

0

评价相对于聚类最难的部分。

如果你知道你在找什么,你不需要运行聚类分析。

因此,不存在聚类的客观“真相”。你认为集群取决于你的个人需求,除非你将它们编码成自定义算法,否则聚类算法可能会计算出完全不同的结果。例如,k-均值最小化方差。无论方差是否与您的集群想法一致!

对于您的使用案例,最好的完整性检查是每个现有的类型分配应该主要在其中一个集群内。如果它到处都是,聚类不会按照您的流派概念进行聚类。

0

如果你没有事实根据,那么没有什么特别的方法可以衡量你的集群是如何成功的。

所以,假设你没有一个基本事实,你可以使用群内相似性;这是在您测量每个群集内节点的相似度时。因为你不需要指定簇的数量,所以我会看看平均移位簇。