2013-09-25 32 views
0
降维

说我们有一个大尺寸的数据集,我们已经降低了使用PCA较低的尺寸后,这将是明智/精确到然后所述数据使用聚类算法?假设我们不知道有多少集群期望。聚类数据与PCA

在虹膜数据集使用PCA(与在CSV数据排序,使得所有的第一类的列,则第二,然后第三)产生以下情节: - Ordered data run through PCA

它可以可以看出Iris数据集中的三个类已被保留。然而,当样品的顺序是随机的,下面的情节产生: - Unordered data run thorough PCA

以上,目前尚不清楚有多少簇/类都包含在数据集中。在这种情况下(更真实的情况),如何识别类的数量,K-Means等聚类算法是否有效?

由于丢弃了低阶主成分,会不会有遗传吗?

编辑: - 要清楚,我问,如果一个数据集可以在运行PCA后进行聚类,如果是这样,最准确的方法是什么。

+0

你究竟绘制了什么?前段时间我绘制了虹膜的PCA,在前两个缩小的维度(包含最多的变化)中,可见的是这些簇。 –

+0

嗨,我正在绘制第一个主成分本征向量和原始(零均值)数据集的乘积。 –

+0

制作直方图,而不是只绘制点。 –

回答

1

说我们有一个大的尺寸,这我们已经降低了使用PCA较低 维度的数据集,会是明智的/准确的,然后使用聚类 算法对上述数据?假设我们不知道有多少簇到 期望。

您的数据可能在低方差尺寸以及分离。我不建议在集群之前运行PCA。

上面,不清楚数据集 集中包含多少个集群/类。在这种情况下(更真实的情况),如何识别类别数量,K-Means等聚类算法是否有效?

有一些有效的聚类算法,不需要事先知道类的数量,例如Mean Shift和DBSCAN。

0

尝试对PCA后的数据集进行排序,然后绘制它。

虹膜数据集是非常简单的得出关于高维数据的行为的任何有效的结论,以及PCA的好处。

另外,“明智” - 在哪个意义上?如果你想吃披萨,绘制虹膜数据集是不明智的。

+0

但是在订单未知的情况下会发生什么?明智/准确 - 是否会产生数据的正确表示。 –

+0

在第一维中按**值**排序,而不是按原始顺序排列,结果会更好! 定义“正确的表示”。在实际数据中没有“正确”的东西。 –