- 我试图采用多层NN以实现部分可观测马尔可夫过程的概率函数..
- 我想投入到NN是:目前的状态,选择的动作,导致状态; 输出是[0,1]中的概率(在当前状态下执行所选动作将导致结果状态的概率)
- 在训练中,我将前面提到的输入馈送到NN中,并且我教它对于已经发生的每种情况,输出= 1.0。
问题:
对于几乎所有的测试情况下,输出概率接近0.95 ..没有产量为0.9下!即使对于几乎不可能的结果,它也给出了很高的概率。增强学习POMDP
PS:我认为这是因为我教过它只发生过病例,但并不是没有发生的。 但是我不能在每集中教导它输出= 0.0对于每一个未发生的行动!
如何解决这个问题?或者可能是另一种使用NN或实现概率函数的方式?
感谢