在网格世界的策略迭代背后的直觉

我应该想出一个MDP代理，它将策略迭代和值迭代用于赋值，并将其性能与状态的效用值进行比较。在网格世界的策略迭代背后的直觉

鉴于MDP代理知道转换概率和奖励，它如何知道要采取何种行动？

根据我的理解，MDP代理将执行策略迭代，并根据策略计算在达到终止状态时获得的回报。该策略是从值迭代算法开发的。

有人可以提供一些直观的政策迭代如何工作？

2012-10-29 edelweiss

由于这是一项家庭作业，您可能需要拿一本关于马尔科夫决策问题的书或教程。 http://ais.informatik.uni-freiburg.de/teaching/ss03/ams/DecisionProblems.pdf – greeness

罗素和诺维格的书“人工智能一种现代方法”，第17章给出了实现策略迭代算法的永恒答案： http://www.amazon.com/Artificial-Intelligence-Modern-Approach-3rd/dp/0136042597 –

假设您已经看到策略迭代和值迭代算法是什么，代理只需通过为每个状态选择具有最高值的操作来构建新策略。

行动的价值是达到下一个状态的概率*（下一个状态的值+转变的回报）与该行动的所有可能的下一个状态之和。

2013-06-26 20:27:49 Orch

回答