2014-12-22 69 views
8

我使用Python中NLTK模块,我试图用这个词性标注不同的语言。NLTK其他语言的POS恶搞

有关于如何训练自己的POS恶搞不同语言的大量的信息 - 是真的有强大的数据库以及建立和测试NLTK POS标注器针对不同的语言? (这是很容易使用咸菜模块出口POS标注器)

+0

[NLTK使用语料库标记西班牙语单词]的可能副本(http://stackoverflow.com/questions/14732465/nltk-tagging-spanish-words-using-a-corpus) – alvas

回答

1

从我所知道的来看,没有这样的良好构建和测试POS标签器的健壮数据库。但我认为这是个好主意。

我尝试了几个标签自己。对于一个大型英语语料库我用: http://gmb.let.rug.nl/

西班牙,我用了一个在NLTK包括(cess_esp)

from nltk.corpus import cess_esp as cess 

为了迅速培养简单标注器可以检查出NLTK师:

https://nltk-trainer.readthedocs.org/en/latest/train_tagger.html

3

如果不严格只使用NLTK,您可以尝试我们的强大和独立于语言的词性标注工具RDRPOSTagger

(许可证:GPL第二版;编程语言:Python的& JAVA)

RDRPOSTagger获得两个学习快速的性能和标记的过程。另外,与最新的结果相比,RDRPOSTagger实现了非常具有竞争力的准确性。

更新18/11/2015:发布1.2版本改进的标签准确度,尤其是在形态丰富的语言。在this paper中查看实验结果,包括性能速度和标记精度。

RDRPOSTagger支持保加利亚语,捷克语,荷兰语,英语,法语,德语,印地语,意大利语,葡萄牙语,西班牙语,瑞典语,泰语和越南语的预训练POS和形态标记模型。 RDRPOSTagger还支持40种语言的预先训练的通用PO​​S标签模型。

+0

如果有人需要它,我做了[移植代码3](https://github.com/jacopofar/RDRPOSTagger-python-3) – Jacopofar