2012-10-29 26 views
3

我应该想出一个MDP代理,它将策略迭代和值迭代用于赋值,并将其性能与状态的效用值进行比较。在网格世界的策略迭代背后的直觉

鉴于MDP代理知道转换概率和奖励,它如何知道要采取何种行动?

根据我的理解,MDP代理将执行策略迭代,并根据策略计算在达到终止状态时获得的回报。该策略是从值迭代算法开发的。

有人可以提供一些直观的政策迭代如何工作?

+2

由于这是一项家庭作业,您可能需要拿一本关于马尔科夫决策问题的书或教程。 http://ais.informatik.uni-freiburg.de/teaching/ss03/ams/DecisionProblems.pdf – greeness

+0

罗素和诺维格的书“人工智能一种现代方法”,第17章给出了实现策略迭代算法的永恒答案: http://www.amazon.com/Artificial-Intelligence-Modern-Approach-3rd/dp/0136042597 –

回答

0

假设您已经看到策略迭代和值迭代算法是什么,代理只需通过为每个状态选择具有最高值的操作来构建新策略。

行动的价值是达到下一个状态的概率*(下一个状态的值+转变的回报)与该行动的所有可能的下一个状态之和。