2017-03-03 83 views
1

任何强化学习算法中最重要的挑战是在勘探和开发之间进行平衡。 我想在玩具问题上运行Q学习,并且我意识到存在快速的epsilon衰变发生。 我选择了epsilon为高(0.9或1),以便代理人可以做更多的探索,我的epsilon衰减大约为0.999。 我如何减慢ε衰减,换句话说,我不希望代理商变得太快贪婪?我的衰变参数应该是什么? 谢谢!Q中的ε衰变学习

回答

0

这取决于您正在运行多少次迭代,每集有多少步骤,以及您希望它衰减到什么时间以及什么时候衰减。 我建议你在每次迭代时绘制你的衰减epsilon值,看看它是否按照你的愿望移动。

0

你是如何实现衰减功能的?

小量=小量* epsilon_decay

随着时间的推移绘制你的小量值的建议是一个很好的一个。我建议你也看看本页的阴谋: Exponential Decay

也许你想添加一个衰变常数到你的公式。