0
我有一堆的纯文本文件,我想分为两种A类或B类NLTK加入流派文件在语料库
训练,我想加入流派A类或B类的到每个文件并尝试识别一些可预测文件流派的功能。 我可以创建一个纯文本语料库,但有什么方法可以在创建语料库时添加文件的流派?
我有一堆的纯文本文件,我想分为两种A类或B类NLTK加入流派文件在语料库
训练,我想加入流派A类或B类的到每个文件并尝试识别一些可预测文件流派的功能。 我可以创建一个纯文本语料库,但有什么方法可以在创建语料库时添加文件的流派?
我建议NLTK的CategorizedPlaintextCorpusReader。文本文件必须根据其类别/流派命名,并且必须将正则表达式传递给构造函数,该构造函数告诉NLTK哪个文件属于哪个类别。
的文档状态:
用来找到用于每个文件标识符的类别正则表达式模式。该模式将应用于每个文件标识符,并且第一个匹配组将用作该文件的类别标签。
您也可以将包含fileids映射关系的字典或文本文件传递给类别名称,而不是模式。请注意,每个文本文件可以属于多个类别。
查看this blog entry代码示例。
[在Python中使用我自己的语料库进行类别分类NLTK](http://stackoverflow.com/questions/8818265/using-my-own-corpus-for-category-classification-in-python-nltk ) – Arun 2013-03-01 17:43:05