ε-贪婪策略随着探索速度的降低

我想在Q学习中实施ε-贪婪策略动作选择策略。这里很多人都用过，下面的公式进行勘探的下降速度，ε-贪婪策略随着探索速度的降低

ɛ= E ^（ - 恩）

N =代理人的年龄

E =开采参数

但我不清楚这个“n”是什么意思？对特定状态动作对的访问次数或者是迭代次数？

非常感谢

2017-02-20 D_Wills

有几个有效的答案为您的问题。从理论的角度来看，为了达到收敛，Q学习要求所有的状态动作对无限次地（渐近地）被访问。

以前的情况可以通过很多方式实现。在我看来，将n简单解释为时间步数，即代理与环境执行了多少次交互[例如Busoniu, 2010, Chapter 2]更为常见。

但是，在某些情况下，每种状态的探索速率可能不同，因此n是代理访问状态s [例如Powell, 2011, chapter 12]的次数。

这两种解释同样有效并确保（与其他条件一起）Q学习的渐近收敛。什么时候更好地使用某种方法取决于您的特定问题，类似于您应该使用的确切数值E。

2017-02-20 09:23:06

回答