1

我发现,虽然训练了一些CNN和RNN对不平衡训练数据,但我的训练收敛速度相对较快,准确度在大类的百分比附近(例如if有80%是例子,它可能总是输出是)。我发现可以解释..这个解决方案是一个局部最优化的,并且在训练时网络无法逃脱它。这个解释是否正确,并且这种行为大多发生在这些情况下? 我能对付它吗?合成更多的训练数据以使得该设置更均匀?还有什么? 非常感谢!机器学习的非平衡训练数据(CNN/RNN)

回答

1

是的,你是对的。不平衡的培训数据会影响准确性。一些解决不平衡类问题的方法如下:

1)更多数据收集:这在某些情况下并不容易。例如,与非欺诈案件相比,有少数欺诈案例。

2)欠采样:从大多数类中删除数据。你可以删除它随机或信息(以帮助从分布来决定要删除什么零件/补丁)

3)过采样:复制属于少数课堂观察。

1

你的问题与TF无关,这是机器学习中的标准问题。只需在google中输入“在机器学习中处理不平衡数据”并阅读几页。

这里有几个方法:

  • 获得更多的数据
  • 使用其他度量(F1)
  • 欠/过采样/加权
相关问题