1
我正在尝试在WEKA(分类问题)中进行降维的PCA。在Weka做PCA
我在我的数据中有200个属性,接近2100行。
这里是我遵循
导入CVS文件中WEKA探险
在预处理标签的步骤,被套,规范化数据(要在的范围带来整个数据[0,1]
然后实现PCA。
- 在对PCA的选择,我有是centerData的一个选项,如果设置为False,则在标准化数据后使用相关矩阵进行计算(如果我错了,更正我),如果设置为true,则使用协方差矩阵。
我的疑问是
- 我应该实现PCA与否之前正火的数据?我试着在正常化之前和之后做这件事,我得到了不同的结果。所以我很困惑。
- 我应该标准化数据(使平均值为0),然后应用PCA。
在这两种情况下,我应该在PCA WEKA中为centerData选项选择什么选项?
由于对于我的数据集,当我尝试以上选项时,我可以看到几个百分比(2-3%)的准确度偏差。 P.S - 在200个属性中,大约180-185个属性已经在[0-1]范围内。问题是由于其他剩余的属性。 – Neil
这是可以理解的。你必须做什么对你的数据最有意义!但是,请记住2-3%的准确度偏差可能只是您测试方法的一个伪影(可能是过度拟合)。 – Walter