Q学习与时间差异与基于模型的强化学习

我在大学里的一门名为“智能机器”的课程。我们与增强学习的3种方法进行了介绍，并与我们给出了何时使用它们的直觉，我引述：Q学习与时间差异与基于模型的强化学习

Q学习 - 最好的时候MDP不能得到解决。
时间差异学习 - 当MDP已知或可以学习但无法解决时最好。
基于模型 - 当MDP无法学习时最好。

我问了一个例子，说明为什么在QL等上使用TDL，讲师找不到一个。

那么有没有什么好的例子可以选择其中一种方法？谢谢。

来源

2015-12-09 StationaryTraveller

Q学习是一种时间差分算法。 –

Q-Learning是否用于计算Q值，而用于计算Value函数的时间差异学习？ [他们是相关的，但我猜不完全一样]还是我误会了？ – StationaryTraveller

V是状态值函数，Q是动作值函数，而Q学习是特定的关策略时间差学习算法。您可以使用不同的TD或非TD方法学习Q或V，这两种方法都可以基于模型或不基于模型。 –

时间差异是an approach to learning how to predict a quantity that depends on future values of a given signal。它可以用来学习V函数和Q函数，而Q学习是一个特定的TD算法，用于学习Q函数。正如@StationaryTraveller所述，您需要使用Q函数来执行某个操作（例如，遵循epsilon-greedy策略）。如果只有V函数，则仍然可以遍历所有可能的下一个状态并选择将您引导至具有最高V值的状态的动作，从而得出Q函数。有关示例和更多见解，我建议classic book from Sutton and Barto（this是一个更新的进展版）。

在 RL你不学习状态转换功能（模型）只依靠样品无模型。但是，您可能也有兴趣了解它，例如因为您无法收集许多样本并想要生成一些虚拟样本。在这种情况下，我们谈论基于模型的 RL。基于模型的RL在机器人技术中非常常见，您无法执行许多真实的仿真或机器人会中断。 This是一个很好的调查与许多例子（但它只谈论政策搜索算法）。又如看看this paper。在这里作者学习了一个策略 - 一个高斯过程来逼近机器人的正向模型，以便模拟轨迹并减少真正的机器人交互的数量。

来源

2015-12-14 09:20:37 Simon

Q学习与时间差异与基于模型的强化学习

回答

相关问题