NLTK加入流派文件在语料库

我有一堆的纯文本文件，我想分为两种A类或B类NLTK加入流派文件在语料库

训练，我想加入流派A类或B类的到每个文件并尝试识别一些可预测文件流派的功能。我可以创建一个纯文本语料库，但有什么方法可以在创建语料库时添加文件的流派？

2013-02-25 user1982993

[在Python中使用我自己的语料库进行类别分类NLTK]（http://stackoverflow.com/questions/8818265/using-my-own-corpus-for-category-classification-in-python-nltk ） – Arun 2013-03-01 17:43:05

我建议NLTK的CategorizedPlaintextCorpusReader。文本文件必须根据其类别/流派命名，并且必须将正则表达式传递给构造函数，该构造函数告诉NLTK哪个文件属于哪个类别。

的文档状态：

用来找到用于每个文件标识符的类别正则表达式模式。该模式将应用于每个文件标识符，并且第一个匹配组将用作该文件的类别标签。

您也可以将包含fileids映射关系的字典或文本文件传递给类别名称，而不是模式。请注意，每个文本文件可以属于多个类别。

查看this blog entry代码示例。

来源

2013-02-25 13:32:34

NLTK加入流派文件在语料库

回答

相关问题