2014-11-20 62 views
5

我使用Stanford POS Tagger(通过Python中的NLTK)标记西班牙文本。Stanford Spanish POS Tagger的含义

这里是我的代码:

import nltk 
from nltk.tag.stanford import POSTagger 
spanish_postagger = POSTagger('models/spanish.tagger', 'stanford-postagger.jar') 
spanish_postagger.tag('esta es una oracion de prueba'.split()) 

结果是:

[(u'esta', u'pd000000'), 
(u'es', u'vsip000'), 
(u'una', u'di0000'), 
(u'oracion', u'nc0s000'), 
(u'de', u'sp000'), 
(u'prueba', u'nc0s000')] 

我想知道我在哪里可以找到究竟意味着pd000000,vsip000,di0000,nc0s000,sp000?

回答

9

这是在AnCora treebank中使用的标记集的简化版本。您可以在这里找到他们的标记集文档:https://web.archive.org/web/20160325024315/http://nlp.lsi.upc.edu/freeling/doc/tagsets/tagset-es.html

“简化”包含归零许多不严格属于语音部分标记的最终字段。例如,我们的词性标注器将始终为您提供原始标记集的NER字段的空值(0)(请参见EAGLES noun documentation)。

简而言之:由我们的标记器生成的POS标记中的字段完全对应于AnCora POS字段,但其中很多字段将为空。对于大多数实际用途,您只需查看标签的前2-4个字符即​​可。第一个字符总是表示广泛的POS类别,第二个字符表示某种子类型。


我们在写一些介绍性文档使用西班牙文CoreNLP的过程(也就是了解这些标签,和很多其他)现在。目前,您可以在我们的technical documentation的首页找到更多信息。

+0

感谢您的回答。 – 2014-11-20 21:12:36

+0

有没有一种方法可以使用斯坦福NLP获取完整标签?其实我最感兴趣的是动词的人物,数量和性别。使用Freeling POS Tagging时我能够做到这一点,但我不知道如何使用斯坦福NLP。 – Kage 2015-04-10 07:34:54

+0

凯奇,我已经在这里回答你的问题:http://stackoverflow.com/questions/29556109/spanish-pos-tagging-with-stanford-nlp-is-it-possible-to-get-the-person-number – 2015-04-10 13:57:18

相关问题