机器学习训练数据集的大小应该是多少？

-1

1）我想对Twitter推文进行情绪分析。所以，我选择使用datumbox-framework。我很怀疑我的训练样本的大小应该是多少？ &如果我正在收集正面，负面，中性的训练样本，我是否应该为所有训练示例保持相同的大小？（即我可以收集10位，5位，15位中性作为我的训练集，或者我应该在我的训练集中收集并保持相同大小pos = 10; neg = 10; neutral = 10的所有pos，neg，neutral）算法我用于twitter的情绪。是海军贝叶斯。机器学习训练数据集的大小应该是多少？

2）训练数据集是否有任何大小限制？

来源

2016-06-09 bunny sunny

我可以知道为什么我的问题已经放弃投票的原因吗？ –

它可能已经被低估了，因为它可能导致基于意见的答案。 –

训练集：用于构建模型的数据集。理想情况下，这些数据应该有偏差，并且应该包含将来可能出现的病例的所有可能性。

训练集越大，结果越好。这更多的是训练集中的测试用例，你的模型越好。所以尽量多包含pos，neg或者twits。

没有理想的训练集大小。并有可能永远是一个训练集这将预测的测试用例权100％，这是因为系统不理解讽刺：d

，并没有为训练集没有大小限制。

注意：训练集必须是随机的，你不能使用10pos，2neg，3中性等，因为这会使它偏向。

一般建议：使用60-70％进行培训，其余进行验证&测试。

来源

2016-06-09 09:50:59

谢谢。我是否需要在某个时间更新训练集？我没有任何关于如何使用验证和测试的想法@AniMenon –

您可以随时考虑使用更大的训练集来改进您的模型。验证是检查有多少记录被正确分类并检查如何改进分类的过程。测试是在训练过的模型上运行新数据以找出模型的准确性的阶段。 –

好的，谢谢@Ani Menon –

机器学习训练数据集的大小应该是多少？

回答

相关问题