2014-02-25 86 views
1

我想查找多义词的列表,但没有在互联网上得到任何东西。有人可以告诉我一个我能从中获得的来源吗?我想在我的词义消歧项目的后端使用它来进行多义词检测机制。一词多义词列表

回答

4

http://ixa2.si.ehu.es/signatureak/SENSECORPUS.README.TXT

我们说的一句话就是monosemous,如果它具有独特的意义,那就是,如果 一个字都有一个唯一的同义词集合考虑到讲话的一部分。

因此多义词是一种多义词。你可以从wordnet本身获得这些信息。

结帐this

下面的工作:

from nltk.corpus import wordnet as wn 

def is_polysemous(word): 
    if(len(wn.synsets(word)) > 1): #more than 1 sense 
     return True 
    else: 
     return False 

您可以进一步通过增加POS资格的代码。例如:

from nltk.corpus import wordnet as wn 

def is_polysemous(word): 
    if(len(wn.synsets(word, pos=wn.NOUN)) > 1): #more than 1 sense 
     return True 
    else: 
     return False 
+0

这不是有用的,因为word中的所有单词都有多个synset。有些synset是相关的,并且这个词不能被认为是多义性的。例如像美国,英国这样的词也被认为是通过这种方法的多义性 – Madhusudan

+0

@Madhusudan然后你应该更清楚你认为多义的东西。我为我的定义和另一个例子添加了参考。 – axiom

+0

@Madhusudan也许你可以使用同义词集之间的词网树中的距离作为区分近似多义词与明显多义词的方法吗?但是,这个答案看起来对你所问的问题是正确的。 –

1

WordNet的每个版本都变得越来越精细。以名词'line'为例。在WordNet1.5中,它有6个感官,而WordNet3.0为同一个名词列出了30个感官。

@axiom给了你正确的答案,但是如果你不希望你的应用程序如此特殊,你可以使用你正在使用的WordNet版本,或者你可以使用所谓的“感知映射”相关感官从更大版本(例如3.0)转换为1.5中的相同感觉。 你可以在这里找到一些感觉映射http://www.cse.unt.edu/~rada/downloads.html#wordnet或者,如果你想要不同的版本,你可以做你自己的映射。