我试图预处理生物数据来训练一个神经网络,尽管有各种规范化方法的广泛搜索和重复呈现,但我不明白应该在什么时候使用哪种方法。特别是我有许多输入变量,这些输入变量是正向偏移的,并且试图确定是否存在最适合的归一化方法。偏斜特征的最合适的归一化/变换方法?
我还担心这些输入的性质是否会影响网络的性能,并因此尝试过数据转换(特别是对数转换)。然而,一些输入具有许多零点,但也可能是十进制小数值,并且似乎受到log(x + 1)(或针对该事件的从1到0.0000001的任何数字)的高度影响,由此产生的分布不能接近正常(或者保留偏斜或在最小值处变成双峰并具有尖峰)。
这是否与神经网络有关?即。我是否应该使用特定的功能转换/标准化方法来说明偏斜的数据,还是应该忽略它并选择标准化方法并推进?
对此事的任何意见将不胜感激!
谢谢!
关于标准化检查条件,我尝试使用MSVMPack运行一些数据集,并得到以下输出: **数据矩阵的列在其标准偏差(> 10)之间显示出较大差异 **。 **这可能会影响分类器的性能。 你想要数据归一化([y]/n)? – soufanom