2017-09-26 74 views
1

我想使用NLTK构建pos标签语料库。这样我就可以根据它来训练我的模型。使用NLTK创建pos标签语料库

到目前为止我已经提到很多来源,但每个人只是解释如何阅读你的标注语料和阅读单词,句子等,以下是一段代码,我想:

from nltk.corpus.reader import TaggedCorpusReader 
reader = TaggedCorpusReader('/home/abc/nltk_data/', 'pos_tagged.pos') 
reader.words() 
reader.tagged_words() 
reader.sents() 

我想包括我的文集在home/nltk_data/corpora/文件夹中,以便我可以导入我创建的语料库。 请指导我。

回答

1

我得到了这样的工作解决方案: 请参阅link一步一步的过程。

here下载相同的必要文件。

一旦你按照1的命令,将生成pickle文件,这是你的标记语料库。

一旦生成泡菜文件,你可以检查你的恶搞是否工作正常,运行下面的代码:

import nltk.data 
tagger = nltk.data.load("taggers/NAME_OF_TAGGER.pickle") 
tagger.tag(['some', 'words', 'in', 'a', 'sentence'])