说我们有一个大尺寸的数据集,我们已经降低了使用PCA较低的尺寸后,这将是明智/精确到然后所述数据使用聚类算法?假设我们不知道有多少集群期望。聚类数据与PCA
在虹膜数据集使用PCA(与在CSV数据排序,使得所有的第一类的列,则第二,然后第三)产生以下情节: -
它可以可以看出Iris数据集中的三个类已被保留。然而,当样品的顺序是随机的,下面的情节产生: -
以上,目前尚不清楚有多少簇/类都包含在数据集中。在这种情况下(更真实的情况),如何识别类的数量,K-Means等聚类算法是否有效?
由于丢弃了低阶主成分,会不会有遗传吗?
编辑: - 要清楚,我问,如果一个数据集可以在运行PCA后进行聚类,如果是这样,最准确的方法是什么。
你究竟绘制了什么?前段时间我绘制了虹膜的PCA,在前两个缩小的维度(包含最多的变化)中,可见的是这些簇。 –
嗨,我正在绘制第一个主成分本征向量和原始(零均值)数据集的乘积。 –
制作直方图,而不是只绘制点。 –