10

我在大学里的一门名为“智能机器”的课程。我们与增强学习的3种方法进行了介绍,并与我们给出了何时使用它们的直觉,我引述:Q学习与时间差异与基于模型的强化学习

  1. Q学习 - 最好的时候MDP不能得到解决。
  2. 时间差异学习 - 当MDP已知或可以学习但无法解决时最好。
  3. 基于模型 - 当MDP无法学习时最好。

我问了一个例子,说明为什么在QL等上使用TDL,讲师找不到一个。

那么有没有什么好的例子可以选择其中一种方法?谢谢。

+2

Q学习是一种时间差分算法。 –

+0

Q-Learning是否用于计算Q值,而用于计算Value函数的时间差异学习? [他们是相关的,但我猜不完全一样]还是我误会了? – StationaryTraveller

+3

V是状态值函数,Q是动作值函数,而Q学习是特定的关策略时间差学习算法。您可以使用不同的TD或非TD方法学习Q或V,这两种方法都可以基于模型或不基于模型。 –

回答

19

时间差异an approach to learning how to predict a quantity that depends on future values of a given signal。 它可以用来学习V函数和Q函数,而Q学习是一个特定的TD算法,用于学习Q函数。 正如@StationaryTraveller所述,您需要使用Q函数来执行某个操作(例如,遵循epsilon-greedy策略)。如果只有V函数,则仍然可以遍历所有可能的下一个状态并选择将您引导至具有最高V值的状态的动作,从而得出Q函数。 有关示例和更多见解,我建议classic book from Sutton and Bartothis是一个更新的进展版)。

RL你不学习状态转换功能(模型)只依靠样品无模型。 但是,您可能也有兴趣了解它,例如因为您无法收集许多样本并想要生成一些虚拟样本。在这种情况下,我们谈论基于模型的 RL。 基于模型的RL在机器人技术中非常常见,您无法执行许多真实的仿真或机器人会中断。 This是一个很好的调查与许多例子(但它只谈论政策搜索算法)。 又如看看this paper。在这里作者学习了一个策略 - 一个高斯过程来逼近机器人的正向模型,以便模拟轨迹并减少真正的机器人交互的数量。