我在数据挖掘领域的初学者,要群集我的电影数据集中寻找流派组。在我的数据集中,我有26种不同类型的86部电影。我想使用群集将我的电影分组为几个流派,而不是26个。因此,例如,运行一些聚类算法后,我将留下4个集群或最适合我的数据集的任何小计。 我已经定义了我的数据集如下 M1 {G1,G2,... G26} M2 {G1,G2,... G26} 其中每个流派G1,..., G26可以存储0或1的值,0不存在,0存在。 现在我的下一个步骤是运行的k-means对集群,我想使用如一个很好的距离函数Pearson相关系数。聚类流派
我正在使用MATLAB进行实验。 我想这样做使用K = 3,4,5,6 k-均值另外我跑Hierarchial聚类。
我不确定如何确定哪个聚类结果更好。如何检查?由于我是初学者,我不知道如何在MATLAB中绘制二进制特征的集群。此外,我DONOT有知识如何使用Pearson相关系数为K-意味着距离度量。请帮忙。