3

我正在尝试为奥赛罗构建一个时间差异学习代理。虽然我的其他实现似乎按预期运行,但我想知道用于训练我的网络的损失函数。在Sutton的“增强学习:导论”一书中,均方误差值(MSVE)是标准损失函数,它基本上是一个均方误差乘以策略分布(所有状态之和(onPolicyDistribution(s )* [V(s)-V'(s,w)] 2))在增强学习中实现丢失函数(MSVE)

我现在的问题是:当我的策略是学习值函数的e-greedy函数时,如何获得此策略分配?它甚至有必要的,有什么问题,如果我只使用一个MSELoss呢?

我实现所有的这pytorch,这样一个简单的实施还有:)

回答

0

正如你提到的,在奖励积分你的情况,听起来就像你在做Q-learning一样,所以你不需要按照Sutton的书中所描述的那样进行策略渐变。这是当你学习一项政策时需要的。你没有学习一项政策,你正在学习价值函数并用它来行动。