对这个问题的启发:为什么深度学习不会遇到浮点或数值精度错误,如果其大部分训练都是在平均值0和标准差1的数据上?
Why do different methods for solving Xc=y in python give different solution when they should not?
,似乎有数值的问题,由于浮动点,反转矩阵和限制值[-1,1]
,我很好奇,现在为什么不深的学习不是来自浮遭受或如果大多数训练数据的平均值为0和标准差1(假设我假定大部分数据已经被预处理到该范围内,再加上我认为这应该基本正确批量标准化的高使用率)。是因为深度学习不是通过高度提高多项式来进行训练,或者为什么深度学习通常很好?是否有一些特殊的SGD或者(流行)激活函数relu,elu等不是数值不稳定的(与高次多项式相比)?或者,也许GPU培训一起避免浮点表示?或者为什么深度学习训练在数值上稳定?