我正在通过Scikit-learn中的k-means对398个样本,306个特征进行聚类。特征矩阵是稀疏的,并且簇的数目为4。 为了改进聚类,我试图两种方法:解释聚类指标
聚类后,我使用ExtraTreesClassifier()进行分类和计算的功能重要度标记的(样品聚类)
我用PCA到特征尺寸降低到2. 我已经计算以下度量(SS,CH,SH)
Method sum_of_squares, Calinski_Harabasz, Silhouette 1 kmeans 31.682 401.3 0.879 2 kmeans+top-features 5989230.351 75863584.45 0.977 3 kmeans+PCA 890.5431893 58479.00277 0.993
我的问题是:
- 据我所知,如果平方和较小,聚类方法的性能更好,而如果轮廓接近1聚类方法的性能更好。例如,在最后一行中,与第一行相比,正方形和轮廓的总和都增加了。
- 如何选择哪种方法具有更好的性能?
即使这是一个有关集群诊断的问题,我认为它更适合于[CrossValidated](http://stats.stackexchange.com) – C8H10N4O2