机器学习的非平衡训练数据（CNN/RNN）

我发现，虽然训练了一些CNN和RNN对不平衡训练数据，但我的训练收敛速度相对较快，准确度在大类的百分比附近（例如if有80％是例子，它可能总是输出是）。我发现可以解释..这个解决方案是一个局部最优化的，并且在训练时网络无法逃脱它。这个解释是否正确，并且这种行为大多发生在这些情况下？我能对付它吗？合成更多的训练数据以使得该设置更均匀？还有什么？非常感谢！机器学习的非平衡训练数据（CNN/RNN）

来源

2017-04-22 Gemini

是的，你是对的。不平衡的培训数据会影响准确性。一些解决不平衡类问题的方法如下：

1）更多数据收集：这在某些情况下并不容易。例如，与非欺诈案件相比，有少数欺诈案例。

2）欠采样：从大多数类中删除数据。你可以删除它随机或信息（以帮助从分布来决定要删除什么零件/补丁）

3）过采样：复制属于少数课堂观察。

来源

2017-04-22 16:30:08 raj

你的问题与TF无关，这是机器学习中的标准问题。只需在google中输入“在机器学习中处理不平衡数据”并阅读几页。

这里有几个方法：

获得更多的数据
使用其他度量（F1）
欠/过采样/加权

来源

2017-04-22 22:41:04

机器学习的非平衡训练数据（CNN/RNN）

回答

相关问题