2015-03-08 44 views
0

我写了一些基本的程序,我想从波兰语中提取引理,因为波兰语使用了变化,所以这是非常重要的。如何从Python的nltk中为波兰语提取pl196x引理?

我创建简单的程序加载数据并转换字为引理,但不知道如何做到这一点:

from nltk import corpus 

pl = corpus.pl196x 
print dir(pl) 
print iter(pl.tagged_words()).next() 

例如,我想去做这样的词形还原(忽略一些词形还原可能是不明确 - 这是正常在波兰):

kot, kota, kota, kotu, kotem, kocie, kocie == kot (singular male) 
kotka, kotki, kotkę, kotce, kotką, kotce, kotka == kot (singular female!) 
kociątko, kociątka, kociątko, kociątku, kociątkiem, kociątku, kociątko == kot (singular neutral) 
etc. (plural males, plural females, plural neutrals) 

如何使用pl196x做这样的工作或nltk。


为语料来源数据包含这样的语调和引理 - 所以它是可能的,但如何访问:

<w id="pu147125" lemma="kot" ana="SSNA---------P">kot</w> 
<w id="pr021633" lemma="kot" ana="SSAA---------P">kota</w> 
etc. 

回答