1

我想在Q学习中实施ε-贪婪策略动作选择策略。这里很多人都用过,下面的公式进行勘探的下降速度,ε-贪婪策略随着探索速度的降低

ɛ= E ^( - 恩)

N =代理人的年龄

E =开采参数

但我不清楚这个“n”是什么意思?对特定状态动作对的访问次数或者是迭代次数?

非常感谢

回答

1

有几个有效的答案为您的问题。从理论的角度来看,为了达到收敛,Q学习要求所有的状态动作对无限次地(渐近地)被访问。

以前的情况可以通过很多方式实现。在我看来,将n简单解释为时间步数,即代理与环境执行了多少次交互[例如Busoniu, 2010, Chapter 2]更为常见。

但是,在某些情况下,每种状态的探索速率可能不同,因此n是代理访问状态s [例如Powell, 2011, chapter 12]的次数。

这两种解释同样有效并确保(与其他条件一起)Q学习的渐近收敛。什么时候更好地使用某种方法取决于您的特定问题,类似于您应该使用的确切数值E