2016-05-25 100 views
0

我尝试建立一个工具来计算2个字之间的相似性,我发现有来自曼彻斯特城市大学的公式如下:句子相似度 - 如何使用WordNet计算subsumer的深度?

Formula for word similarity from Manchester research group

直到现在,我仍然感到困惑如何获得h是分层语义网中消费者的深度。 据我的理解,h是从顶部单词到某个单词的路径长度,作为参考文献,最上面的单词是NOUN的'实体'。 但是另一种单词如ADJ,ADV,VERB ......怎么样? 如果我们已经拥有了顶级的话,我们如何能够从它列出的路径,我们需要计算

本文是在以下链接词:https://www.researchgate.net/profile/Keeley_Crockett/publication/232645326_Sentence_Similarity_Based_on_Semantic_Nets_and_Corpus_Statistics/links/0deec51b8db68f19fa000000.pdf

真的很感激任何答案。 感谢

回答

0

我想补充我刚才发现了更多的细节。 这些细节对于我的搜索已经足够了,但可能并不完全符合上述问题,但我认为我需要分享给将来需要的人。

  1. “实体”不是名词只有root,而且任何文字甚至是动词,ADJ,ADV ....

    • 的字防爆完整路径“吻根“:ROOT#N#1 <实体#N#1 <抽象#N#6 < psychological_feature#N#1 <事件#N#1 <行为#N#2 <触摸#N#5 <吻#N# 1
    • 单词'kick'的EX完整路径:ROOT#N#1 <实体#N#1 <抽象#N#6 < psychological_feature#N#1 <事件#N#1 <行为#N#2 < speech_act#N#1 <异议#N#2 < kick#n#4
  2. 要计算任何单词的深度,我们需要从开始单词('实体')计算并基于Word Net分层数据库。

回过头来上述例子中,是图6中,H(“吻”和“踢”的subsummer的长度),这是从顶部树节点根数到字“行为”

0

每次我试着去了解WORDNET层次,我发现的东西,一切都失效我以前认为:) 关于相似之处,如果你正在使用Python和NLTK时间,我建议你使用所提供的相似性指标如果不是的话,那些可能是了解事情如何运作的良好开端。

在这个环节,向下滚动到相似度: http://www.nltk.org/howto/wordnet.html

+0

由于塞普,但实际上我尝试呈现上面的公式来测试它是比其他算法更好还是最差。这就是为什么我试图理解它是如何工作的.BTW,当我们在wesite上访问Word Net时,可以到常见问题解答中找到一个在Pearl中开发的工具来计算字词之间的距离 –