我知道前馈神经网络的基础知识,以及如何使用反向传播算法训练它们,但是我正在寻找一种算法,而不是我可以用来在线训练ANN以进行强化学习。例如,cart pole swing up问题是我想用ANN解决的问题。在那种情况下,我不知道应该怎样控制钟摆,我只知道我离理想位置有多近。我需要根据奖励和惩罚让ANN学习。因此,监督学习不是一种选择。使用增强学习训练神经网络
另一种情况类似于snake game,其中反馈延迟,并限于目标和反目标,而不是奖励。
我能想到的第一种情况的一些算法,如爬山或遗传算法,但我猜他们都会很慢。它们也可能适用于第二种情况,但速度非常慢,并且不利于在线学习。
我的问题很简单:是否有一个简单的算法来训练具有强化学习的人工神经网络?我主要对实时奖励情况感兴趣,但是如果有基于目标的情况的算法可用,甚至更好。
好问题,我在想几乎完全一样的东西,在我的情况下神经网络是经常性的。关键之一是你正在谈论2种不同的学习算法。除非您有办法解决这些问题,否则您不能将两种不同的学习算法应用于同一问题而不会导致冲突。 –