Stanford Spanish POS Tagger的含义

我使用Stanford POS Tagger（通过Python中的NLTK）标记西班牙文本。Stanford Spanish POS Tagger的含义

这里是我的代码：

import nltk 
from nltk.tag.stanford import POSTagger 
spanish_postagger = POSTagger('models/spanish.tagger', 'stanford-postagger.jar') 
spanish_postagger.tag('esta es una oracion de prueba'.split())

结果是：

[(u'esta', u'pd000000'), 
(u'es', u'vsip000'), 
(u'una', u'di0000'), 
(u'oracion', u'nc0s000'), 
(u'de', u'sp000'), 
(u'prueba', u'nc0s000')]

我想知道我在哪里可以找到究竟意味着pd000000，vsip000，di0000，nc0s000，sp000？

来源

2014-11-20 Pedro Muñoz

这是在AnCora treebank中使用的标记集的简化版本。您可以在这里找到他们的标记集文档：https://web.archive.org/web/20160325024315/http://nlp.lsi.upc.edu/freeling/doc/tagsets/tagset-es.html

“简化”包含归零许多不严格属于语音部分标记的最终字段。例如，我们的词性标注器将始终为您提供原始标记集的NER字段的空值（0）（请参见EAGLES noun documentation）。

简而言之：由我们的标记器生成的POS标记中的字段完全对应于AnCora POS字段，但其中很多字段将为空。对于大多数实际用途，您只需查看标签的前2-4个字符即可。第一个字符总是表示广泛的POS类别，第二个字符表示某种子类型。

我们在写一些介绍性文档使用西班牙文CoreNLP的过程（也就是了解这些标签，和很多其他）现在。目前，您可以在我们的technical documentation的首页找到更多信息。

来源

2014-11-20 20:52:35

感谢您的回答。 – 2014-11-20 21:12:36

有没有一种方法可以使用斯坦福NLP获取完整标签？其实我最感兴趣的是动词的人物，数量和性别。使用Freeling POS Tagging时我能够做到这一点，但我不知道如何使用斯坦福NLP。 – Kage 2015-04-10 07:34:54

凯奇，我已经在这里回答你的问题：http://stackoverflow.com/questions/29556109/spanish-pos-tagging-with-stanford-nlp-is-it-possible-to-get-the-person-number – 2015-04-10 13:57:18

Stanford Spanish POS Tagger的含义

回答

相关问题