0
A
回答
2
您可以通过在Reuters
应用也可以得到Technion工业文本库TechnionRepo
1
如果您正在构建实时文本分类系统得到了路透社语料库,你会已经有一个语料库的文件。任何分类器中的假设之一是,训练数据&测试数据是相似的或来自相同的分布。 如果您只是在此区域探索或建造样本用具,那么可能此链接可能有助于获取一些列车数据。
相关问题
- 1. 如何在MATLAB中训练大数据集以进行分类
- 2. 适合Java中的文本分类的训练数据集
- 3. 基于训练集的数据分类
- 4. 如何在apache模型训练后对新的训练样例进行分类?
- 5. NLTK使用训练分类
- 6. Tensorflow分类图像训练
- 7. 训练分类模型Opennlp
- 8. 是否需要对SVM多分类的训练数据进行混洗?
- 9. 训练数据集
- 10. Tesseract训练数据
- 11. 当根据训练集训练分类器时,如果某些训练样本比其他训练样本更值钱(更有价值),我该怎么办?
- 12. 将分区数据集拆分为训练和测试(训练数据每个类有200个示例)
- 13. 用于二进制分类的训练多级分类器
- 14. Java SVM文本分类,训练和测试文件?
- 15. 手写文本训练tesseract
- 16. 分割训练数据以训练n个模型的最佳数量
- 17. opennlp疾病样本训练数据
- 18. Tensorflow python分类训练与子类别
- 19. OpenCV:lbp级联的行人训练数据
- 20. 如何在没有培训数据时对聊天文本进行分类?
- 21. 如何使用Weka中新近训练的NaiveBayes分类器对未标记的数据集进行分类
- 22. 生成keras训练数据
- 23. FANN训练数据集
- 24. 在weka分类器中缩放训练数据
- 25. 贝叶斯分类器的训练数据大小
- 26. Encog计算/分类错误的训练数据
- 27. 准备一个多标记分类的训练数据集
- 28. mahout分类器训练数据的预处理
- 29. 如何使用视频数据集训练分类器
- 30. 寻找开源文本分类实现