任何强化学习算法中最重要的挑战是在勘探和开发之间进行平衡。 我想在玩具问题上运行Q学习,并且我意识到存在快速的epsilon衰变发生。 我选择了epsilon为高(0.9或1),以便代理人可以做更多的探索,我的epsilon衰减大约为0.999。 我如何减慢ε衰减,换句话说,我不希望代理商变得太快贪婪?我的衰变参数应该是什么? 谢谢!Q中的ε衰变学习
Q
Q中的ε衰变学习
1
A
回答
0
这取决于您正在运行多少次迭代,每集有多少步骤,以及您希望它衰减到什么时间以及什么时候衰减。 我建议你在每次迭代时绘制你的衰减epsilon值,看看它是否按照你的愿望移动。
0
你是如何实现衰减功能的?
小量=小量* epsilon_decay
随着时间的推移绘制你的小量值的建议是一个很好的一个。我建议你也看看本页的阴谋: Exponential Decay
也许你想添加一个衰变常数到你的公式。
相关问题
- 1. Q学习代理的学习率
- 2. LSTM学习速率衰减
- 3. Keras的学习速度虽然衰退,但学习速度没有变化
- 4. Q学习教程混淆
- 5. Q学习系数溢出
- 6. Q学习转换矩阵
- 7. 深q学习不收敛
- 8. Q学习计算:状态未知
- 9. 函数逼近器和q学习
- 10. Q学习与时间差异与基于模型的强化学习
- 11. 学习VBA变量
- 12. 在Q学习中的探索和利用
- 13. 深度Q学习算法中的phi是什么
- 14. 在Q学习中,你怎么才能真正获得Q值? Q(s,a)不会永远持续下去吗?
- 15. 使用线性函数逼近的Q学习
- 16. 甚至可能没有最终状态的Q学习?
- 17. Q学习:什么是奖励计算正确的状态
- 18. 用于q学习的神经网络体系结构
- 19. 学习Java中
- 20. 使用scikit学习字典学习中的内存错误学习
- 21. 奖励在Q学习和TD(拉姆达)
- 22. Q学习与神经网络(奖励理解)组合
- 23. Q深度学习算法不起作用
- 24. 局部敏感散列(LSH)中的ε(ε)参数是什么?
- 25. 如何理解Sutton&Barto的RL书中Watkins的Q(λ)学习算法?
- 26. 学习Python练习
- 27. 学习jQuery的
- 28. 学习的NodeJS
- 29. 波尔兹曼探索在Q学习中有两个以上的动作
- 30. Lisp变体学习的任何建议?