2014-01-27 86 views
-1

我在做聚类分析。有很多相互关联的变量。我想知道,包含相关变量是否可行?在这种情况下做什么?使用相关变量进行聚类

在此先感谢

+0

您可以在聚类之前在数据集上运行PCA以消除线性相关性。 –

+0

我从来没有使用过PCA,这个方法是否会去掉相关的变量?你能详细说明吗? – Arushi

回答

2

首先,显而易见的方法:

  • 评估是否需要所有的人,也可以离席而去其中一些

  • 白化(去相关)您的数据通过做PCA,这是k-means的最佳做法

其次,您可能需要查看相关群集,该群集会尝试识别在您的数据集中表现出不同相关性的群集。当你的数据不是全局相关时,美白不会消除这些局部相关性。相关聚类意在发现这些模式。

+0

我从来没有使用PCA,此方法是否选择不相关的数据? – Arushi

+1

PCA不选择数据。它计算一个投影矩阵,在投影数据之后,协方差矩阵就是单位矩阵。如果您的数据已经解相关,PCA可能会返回单位矩阵作为投影。 –

+0

所以你的意思是,我可以选择使用PCA不相关的变量? – Arushi