所以这个问题可能看起来有点愚蠢,但我无法把头围住它。 测试数据的目的是什么?只是计算分类器的准确性?我正在使用朴素贝叶斯对推文进行情感分析。一旦我使用训练数据训练分类器,我只使用测试数据来计算分类器的准确性。如何使用测试数据来提高分类器的性能?监督学习中的测试数据的目的?
回答
你不 - 喜欢你猜测,测试数据用于测试,不得用于其他任何东西,以免你倾斜你的测量精度。这是任何机器学习的重要基石 - 如果您使用测试数据进行培训,则只会欺骗自己。
如果你正在考虑这样的孤注一掷的措施,提出了正确的解决方法通常是重新审视你的问题的空间,你有解决方案。它是否充分模拟了您正在尝试解决的问题?如果不是,你能设计一个更好的模型来捕捉问题的本质吗?
机器学习是不是银弹。它不会为你解决你的问题。太多失败的实验一遍又一遍地证明,“垃圾进入垃圾”。
在这样做的一般监督的机器学习,测试数据集在决定模型的效果如何关键的作用。您通常会建立一个模型,其中包含您输入数据的90%,并留下10%用于测试。然后通过观察它对10%训练集的效果,来检查该模型的准确性。模型对测试数据的性能是有意义的,因为模型从未“看到”过这些数据。如果模型在统计上是有效的,那么它应该在训练和测试数据集上表现良好。这个通用程序被称为交叉验证,你可以阅读更多关于它here。
你将你的设置到动车组+ DEV-测试设置如[这](http://stackoverflow.com/questions/10059594/a-simple-explanation-of-naive-bayes-classification) – CSK 2015-03-02 06:29:33
我不没有任何与朴素贝叶斯合作的经验,但我曾广泛地使用决策树(以及一些SVM)。您所介绍的文章看起来就是您正在做的事情。 – 2015-03-02 06:44:14
- 1. 异常检测与监督学习
- 2. 使用PCA时监督学习和无监督学习的区别
- 3. Python监督机器学习
- 4. 无监督学习句子
- 5. 如何提出有监督和无监督学习的问题?
- 6. 有监督学习的情感分类
- 7. 减少监督学习的尺寸
- 8. 有监督学习及其可预测类别的数量
- 9. 监督机器学习几个系数
- 10. 分类中的类似检测(监督式学习)
- 11. 测试无监督机器学习算法
- 12. 小数据的最佳监督学习算法
- 13. 直接/间接和监督/无监督/强化学习
- 14. 图像识别使用监督或无监督学习
- 15. 何时使用有监督或无监督学习?
- 16. 监督学习随机森林通过
- 17. 什么是弱监督学习(引导)?
- 18. 小结Algo小说:监督学习
- 19. 决策树学习可以“半监督”
- 20. 准备包半监督学习
- 21. 正在接受随机人员监督或无人监督学习的调查?
- 22. 为无监督学习生成合成数据
- 23. 如何跟踪监督学习中的标签?
- 24. 使用深度学习技术的监督学习(文档分类)
- 25. 如何为受监督的机器学习项目构建目标变量
- 26. 充分利用无监督学习的数据了解到表示在pylearn2
- 27. 有监督机器学习的历史标签
- 28. 序列/时间序列监督学习的滞后值
- 29. 人类可解释的监督机器学习算法
- 30. 通过scikit-learn进行回归的半监督学习
所以,增加我的训练集是提高我的分类性能的唯一途径? – CSK 2015-03-02 05:48:25
更好的模式通常是获得实质性改进的唯一方法,这似乎就是您所问的。使用更好的功能,或者如果幸运的话,可以降低噪音功能;或者尝试一种完全不同的方法。 – tripleee 2015-03-02 05:50:37
我尝试从推文中剥离名词和符号,但结果并不理想。如果你不介意,你可以建议任何其他改进以获得更好的功能吗? – CSK 2015-03-02 06:46:53