有没有办法在pytorch中使用外部丢失函数？

pytorch神经网络的典型骨架有一个forward（）方法，然后我们根据正向传递的输出计算损失，并在该损失上调用backward（）来更新梯度。如果我的损失是外部确定的（例如通过在RL环境中运行模拟）会怎样？我仍然可以这样利用这种典型结构吗？有没有办法在pytorch中使用外部丢失函数？

谢谢！

2017-07-22 vlyubin

在这种情况下，我最容易从损失计算中抽象出正向通行证（您的策略？）。这是因为（如您所知），在大多数情况下，您需要从您的环境中获取状态，然后计算一个动作（本质上是正向传球），然后将该动作反馈回环境以获得奖励/损失来自你的环境。

当然，一旦计算出一个行动来计算结果损失，你可以在正向通行证内调用你的环境。但为什么要麻烦？一旦你在你的环境中采取了几个步骤，直到你获得奖励/损失，它将变得更加复杂（尽管可能）。

的基本思路是：

虽然这个例子是特定于REINFORCE的，但是构造代码的一般思想适用于其他RL算法。另外，你会在同一个回购中找到另外两个例子。

希望这会有所帮助。

2017-07-23 16:21:54 mexmex

回答