我的具有渐变下降的SARSA不断使指数级别的权重升级。在第4集第17步价值已经楠 Exception: Qa is nan
e.g: 6) Qa:
Qa = -2.00890180632e+303
7) NEXT Qa:
Next Qa with west = -2.28577776413e+303
8) THETA:
1.78032402991e+303 <= -0.1 + (
我想获得一些关于如何使用函数逼近的Q学习算法的有用说明。对于基本的Q学习算法,我找到了一些例子,我想我也明白它。如果使用函数逼近,我会遇到麻烦。有人可以通过一个简短的例子来解释它是如何工作的吗? 我所知道的: Istead使用矩阵,我们使用的功能和参数Q值的。 使用派生函数和参数的线性组合近似。 更新参数。 我已经检查本文:Q-learning with function approximatio