0
我想获得一些关于如何使用函数逼近的Q学习算法的有用说明。对于基本的Q学习算法,我找到了一些例子,我想我也明白它。如果使用函数逼近,我会遇到麻烦。有人可以通过一个简短的例子来解释它是如何工作的吗?使用线性函数逼近的Q学习
我所知道的:
- Istead使用矩阵,我们使用的功能和参数Q值的。
- 使用派生函数和参数的线性组合近似。
- 更新参数。
我已经检查本文:Q-learning with function approximation
但我不能找到任何有用的教程如何使用它。
感谢您的帮助!