2013-02-25 26 views
0

我有一堆的纯文本文件,我想分为两种A类或B类NLTK加入流派文件在语料库

训练,我想加入流派A类或B类的到每个文件并尝试识别一些可预测文件流派的功能。 我可以创建一个纯文本语料库,但有什么方法可以在创建语料库时添加文件的流派?

+0

[在Python中使用我自己的语料库进行类别分类NLTK](http://stackoverflow.com/questions/8818265/using-my-own-corpus-for-category-classification-in-python-nltk ) – Arun 2013-03-01 17:43:05

回答

1

我建议NLTK的CategorizedPlaintextCorpusReader。文本文件必须根据其类别/流派命名,并且必须将正则表达式传递给构造函数,该构造函数告诉NLTK哪个文件属于哪个类别。

的文档状态:

用来找到用于每个文件标识符的类别正则表达式模式。该模式将应用于每个文件标识符,并且第一个匹配组将用作该文件的类别标签。

您也可以将包含fileids映射关系的字典或文本文件传递给类别名称,而不是模式。请注意,每个文本文件可以属于多个类别。

查看this blog entry代码示例。

相关问题