1
我目前正在尝试为我的项目实施MCTS,但我不确定是否理解了正确选择节点的想法。在游戏开始时,在我随机选择一个动作之后,将整个树展开到游戏结束点,然后进行反向传播,这个节点显然比所有其他游戏更好,因为它是1/1(如果我们得到了胜利)与他们的0/0。 MCTS如何逃离该陷阱并且不会被随机选择的节点卡住?了解MCTS节点选择
我的意思是,如果我们用UCB找到最好的节点来扩展,它总是会选择我们首先选择的节点(因为它导致了胜利),因为它会完全忽略所有其他节点是唯一一个非零价值的。我在这里错过了什么,因为它显然不是这种情况?
明白了。谢谢:) – Straightfw
很高兴能有帮助!如果它能帮助你,那么验证一个答案是很常见的事情,所以,如果它确实帮助你,那将是很酷的! =) – Fezvez