Q中的ε衰变学习

任何强化学习算法中最重要的挑战是在勘探和开发之间进行平衡。我想在玩具问题上运行Q学习，并且我意识到存在快速的epsilon衰变发生。我选择了epsilon为高（0.9或1），以便代理人可以做更多的探索，我的epsilon衰减大约为0.999。我如何减慢ε衰减，换句话说，我不希望代理商变得太快贪婪？我的衰变参数应该是什么？谢谢！Q中的ε衰变学习

来源

2017-03-03 enthusiast

这取决于您正在运行多少次迭代，每集有多少步骤，以及您希望它衰减到什么时间以及什么时候衰减。我建议你在每次迭代时绘制你的衰减epsilon值，看看它是否按照你的愿望移动。

来源

2017-04-16 22:21:05 David

你是如何实现衰减功能的？

小量=小量* epsilon_decay

随着时间的推移绘制你的小量值的建议是一个很好的一个。我建议你也看看本页的阴谋： Exponential Decay

也许你想添加一个衰变常数到你的公式。

来源

2017-06-21 20:26:18 Ryan

Q中的ε衰变学习

回答

相关问题