0
我正在训练RNN,并在一夜之间失去了NaN的功能。我一直在阅读这个解决方案是为了降低学习速度。当试图从我的(唯一)检查站重新开始训练并且使用较小的学习速度时,我仍然得到了NaN。这是否意味着我的检查点无法修复?有没有办法恢复这一个或使用tf.train.Saver这样一种方式,我保证模型的一个版本,在它达到一个不返回点之前?达到NaN丢失后恢复检查点?
我正在训练RNN,并在一夜之间失去了NaN的功能。我一直在阅读这个解决方案是为了降低学习速度。当试图从我的(唯一)检查站重新开始训练并且使用较小的学习速度时,我仍然得到了NaN。这是否意味着我的检查点无法修复?有没有办法恢复这一个或使用tf.train.Saver这样一种方式,我保证模型的一个版本,在它达到一个不返回点之前?达到NaN丢失后恢复检查点?
如果您的检查点有NaN
值,那么恢复它可能不会很多。我想你可以用别的东西代替NaN,但那不是那种原则性的。
您可能想查看是否存在没有NaN
值的早期检查点。 tf.train.Saver
默认最多保留5个以前的检查点,正是这个原因排序的:
https://www.tensorflow.org/api_docs/python/tf/train/Saver
希望这有助于!
如果学习率是你的问题,我会期望看到NaN从第一个时代开始,而不是经过很多迭代。 –