3
我正在尝试为奥赛罗构建一个时间差异学习代理。虽然我的其他实现似乎按预期运行,但我想知道用于训练我的网络的损失函数。在Sutton的“增强学习:导论”一书中,均方误差值(MSVE)是标准损失函数,它基本上是一个均方误差乘以策略分布(所有状态之和(onPolicyDistribution(s )* [V(s)-V'(s,w)] 2))在增强学习中实现丢失函数(MSVE)
我现在的问题是:当我的策略是学习值函数的e-greedy函数时,如何获得此策略分配?它甚至有必要的,有什么问题,如果我只使用一个MSELoss呢?
我实现所有的这pytorch,这样一个简单的实施还有:)