任何人都可以请澄清如何(因为我没有在任何地方找到任何明确的例子)MCTS算法迭代为第二个球员。蒙地卡罗树搜索交替
我看起来似乎只是看起来像它正在播放,例如P1每次移动。 我理解一个代理的步骤,但我从来没有发现任何显示P2放置其计数器的代码的任何内容,这肯定在增长树时必须发生。
基本上我所期望的:
每个ITER:
选择节点PLAYER1 扩大PLAYER1
选择节点Player2 扩大玩家2
推出 backpropogate
下一个iter
这是对吗?任何人都可以拼出一些显示的伪码吗?无论迭代还是递归,我都不介意。
感谢您的任何帮助。
好的,谢谢你的额外建议,我会再考虑一下。 – progan01
我现在还不确定。我想迭代必须是这样的: 每个ITER \t PLAYER1选择 \t播放器1扩大 \t player2选择 \t player2扩大 \t推出 \t backpropogate 未来ITER – progan01