1
我已经通过神经网络,并已经理解了反向传播的派生几乎完美(最后!)。但是,我有一个小小的怀疑。 我们正在同时更新所有重量,所以它们保证了它们的成本更低。如果权重逐个更新,肯定会导致较低的成本,并且与线性回归相似。但是如果你同时更新所有的权重,我们可能不穿过最小值?神经网络backpropogation
此外,我们是否更新偏差,就像我们更新每个测试用例的每次正向传播和反向传播之后的权重?
最后,我已经开始阅读RNN的。了解RNN中的BPTT有哪些好的资源?
在Cross-Validated(http://stats.stackexchange.com/)上发布此问题可能会有更多的运气。交叉验证是一个用于机器学习的StackExchange站点。 –
这是我在学习RNN时做出的一个推导,希望它有所帮助。 https://github.com/lifuhuang/memo-of-thoughts/blob/master/Derivation%20of%20RNN.pdf –