2013-07-01 124 views
2

现在我试图比较来自两个不同文件,一个英文,一个中文的单词。我必须确定是否有任何英文单词与中文单词有关,如果它们是,它们是平等还是一个是另一个的上位词。我可以使用英文synsets,但是我可以怎样处理中文单词?NLTK synset与其他语言

回答

1

看起来有一个台湾大学的中文(cmn)WordNet:http://casta-net.jp/~kuribayashi/multi/。如果此WordNet与英文WordNet格式相同,则可以使用NLTK中的WordNetCorpusReader(http://nltk.googlecode.com/svn/trunk/doc/api/nltk.corpus.reader.wordnet-pysrc.html#WordNetCorpusReader)导入普通话数据。我不知道你是如何在两个数据集之间进行排列或翻译,但假设你可以将英语映射到中文,这应该可以帮助你找出两个英文单词之间的关系与两个普通话单词之间的关系。请注意,如果您的数据使用简化脚本,则在使用此cmn WordNet之前,您可能还需要转换为传统脚本。

+0

; P“Open Multilingual WordNet”是非英文wordnet的一个很好的资源,如果ANYONE很乐意编写NLTK API,请联系Francis Bond @ http://www3.ntu.edu.sg/home/fcbond /或史蒂文·伯德http://ww2.cs.mu.oz.au/~sb/或两者=) – alvas

+0

这就是为什么我链接到完整列表,而不是仅仅需要WordNet OP。我应该补充说明,为不同语言开发的本体在跨语言上通常不是相同的,尽管我认为在许多情况下分层结构可能足够接近。 – dmh

+0

有可能拥有语言独立领域特定的本体论,但我不认为hypo/hypernym hierachies是跨语言关闭的。请参阅http://goo.gl/LkN3h – alvas