2016-06-09 59 views
-1

1)我想对Twitter推文进行情绪分析。所以,我选择使用datumbox-framework。我很怀疑我的训练样本的大小应该是多少? &如果我正在收集正面,负面,中性的训练样本,我是否应该为所有训练示例保持相同的大小? (即我可以收集10位,5位,15位中性作为我的训练集,或者我应该在我的训练集中收集并保持相同大小pos = 10; neg = 10; neutral = 10的所有pos,neg,neutral)算法我用于twitter的情绪。 是海军贝叶斯机器学习训练数据集的大小应该是多少?

2)训练数据集是否有任何大小限制?

+0

我可以知道为什么我的问题已经放弃投票的原因吗? –

+0

它可能已经被低估了,因为它可能导致基于意见的答案。 –

回答

1

训练集:用于构建模型的数据集。 理想情况下,这些数据应该有偏差,并且应该包含将来可能出现的病例的所有可能性。

训练集越大,结果越好。这更多的是训练集中的测试用例,你的模型越好。所以尽量多包含pos,neg或者twits。

没有理想的训练集大小。并有可能永远是一个训练集这将预测的测试用例权100%,这是因为系统不理解讽刺:d

,并没有为训练集没有大小限制。

注意:训练集必须是随机的,你不能使用10pos,2neg,3中性等,因为这会使它偏向。

一般建议:使用60-70%进行培训,其余进行验证&测试。

+0

谢谢。我是否需要在某个时间更新训练集?我没有任何关于如何使用验证和测试的想法@AniMenon –

+0

您可以随时考虑使用更大的训练集来改进您的模型。验证是检查有多少记录被正确分类并检查如何改进分类的过程。测试是在训练过的模型上运行新数据以找出模型的准确性的阶段。 –

+0

好的,谢谢@Ani Menon –

相关问题