在增强学习中实现丢失函数（MSVE）

2017-10-11 61 views 3 likes

我正在尝试为奥赛罗构建一个时间差异学习代理。虽然我的其他实现似乎按预期运行，但我想知道用于训练我的网络的损失函数。在Sutton的“增强学习：导论”一书中，均方误差值（MSVE）是标准损失函数，它基本上是一个均方误差乘以策略分布（所有状态之和（onPolicyDistribution（s ）* [V（s）-V'（s，w）] 2））在增强学习中实现丢失函数（MSVE）

我现在的问题是：当我的策略是学习值函数的e-greedy函数时，如何获得此策略分配？它甚至有必要的，有什么问题，如果我只使用一个MSELoss呢？

我实现所有的这pytorch，这样一个简单的实施还有:)

来源

2017-10-11 masus04

回答

正如你提到的，在奖励积分你的情况，听起来就像你在做Q-learning一样，所以你不需要按照Sutton的书中所描述的那样进行策略渐变。这是当你学习一项政策时需要的。你没有学习一项政策，你正在学习价值函数并用它来行动。

来源

2018-02-26 08:22:14

在增强学习中实现丢失函数（MSVE）

回答

相关问题