我想知道两个网页是否相似。有人可以建议,如果Python的nltk与wordnet相似性功能有用,以及如何?在这种情况下使用的最佳相似度函数是什么?使用python nltk来查找两个网页之间的相似性?
回答
通过joyceschan地址内容重复检测中提到的spotsigs纸,它含有大量的深思。
如果您正在寻找关键术语的快速比较,nltk
标准功能可能就足够了。
有了你可以通过查找同义词集载拉你项的同义词nltk
通过共发现
>>> from nltk.corpus import wordnet
>>> wordnet.synsets('donation')
[Synset('contribution.n.02'), Synset('contribution.n.03')]
>>> wordnet.synsets('donations')
[Synset('contribution.n.02'), Synset('contribution.n.03')]
它理解复数,它也告诉你哪个词性的代名词相当于
Synsets被存储在一棵树中,在叶子上有更多的特定术语,而在根上则是更一般的术语。根术语称为上位
您可以测量的条件有多接近普通上位词相似
留意词性不同,根据他们做的不是NLTK食谱有重叠的路径,所以你不应该尝试测量它们之间的相似性。
说,你有两个方面捐赠和礼物,你可以从synsets
得到他们,但在这个例子中,我直接初始化它们:
>>> d = wordnet.synset('donation.n.01')
>>> g = wordnet.synset('gift.n.01')
菜谱建议吴帕尔默相似方法
>>> d.wup_similarity(g)
0.93333333333333335
该方法为您提供了一种快速确定所用术语是否对应于相关概念的方法。看看Natural Language Processing with Python看看你还能做些什么来帮助你分析文本。
感谢队友,这是有帮助的。但是,使用这些东西,我可以找到一对单词之间的相似性,但我怎么做的句子。 – station 2011-06-07 12:26:00
哇!这比性或冰淇淋好! – 2011-06-07 14:26:10
@ user567797没有问题。本文概述了测量两个句子之间语义相似度的算法。 http://www.google.com/url?sa=t&source=web&cd=2&ved=0CCYQFjAB&url=http%3A%2F%2Fwordnetdotnet.googlecode。COM%2Fsvn%2Ftrunk%2FProjects%2FThanh%2FPaper%2FWordNetDotNet_Semantic_Similarity.pdf&RCT = J&Q =相似性%20sentences&EI = XEruTanSLcXegQetyeSVDw&USG = AFQjCNF9fWcVrWZ4_cBZcfW_p7fFxaL_1A&SIG2 = qY7LW7YWGzNXMhOOPS5Llw及CAD = RJA – 2011-06-07 16:00:32
考虑实施Spotsigs
- 1. 使用FQL查找两个Facebook用户之间的相似性
- 2. 查找两个文档之间的相似性Lucene
- 3. 如何使用SequenceMatcher查找两个字符串之间的相似性?
- 4. 找到两个文本字符串之间的相似性..?
- 5. 查找两个文档之间的相似度
- 6. Python中两个文本文档之间的相似性
- 7. 查找两个表格之间的相似名称
- 8. 找到两个相似波形之间的时间偏移
- 9. 查找两个数组之间的余弦相似度
- 10. 如何找到两行数据之间的相似性
- 11. 如何计算NLTK中synsets之间的最大相似度? -Python
- 12. 如何在matlab中使用xcorr查找两个信号之间的相似度
- 13. 用于查找文件之间相似性的Shell脚本
- 14. 计算两个序列之间相似性的复杂性
- 15. 估计两个词之间的音素相似性
- 16. 找到两个页面的相似度
- 17. 两个字符串之间的相似
- 18. 查找SYBASE中的字符串之间的相似性SQL
- 19. 查找一组属性之间的最相似(MongoDB的)
- 20. 在excel中查找行值之间的文本相似性
- 21. 用于检查两个文本之间相似性百分比的MySQL函数
- 22. 比较两个相似的,不相同的NLTK树
- 23. 如何使用wordnet查找两个网页之间的语义关系?
- 24. Excel:计算两个列表之间的相似性
- 25. 两个“词”之间的语义相似性/相关性的Java API
- 26. 如何在android中找到两个GPS坐标之间的相似性数量
- 27. Android:测量两个活动页面之间的相似度
- 28. 如何计算两个字符串之间的相似性MYSQL
- 29. 比较两个结果集之间的相似性
- 30. 两个信号之间的相似性:寻找简单的测量
NLTK很有用。看一看(开源)O'Reilly的书 - 它发布在nltk.org上,如果你无法找到/提供打印版本。这应该指向正确的方向,因为它涵盖了NLTK可以完成的大部分工作。 – winwaed 2011-06-06 13:08:57
[链接到Python 2书为了方便](http://www.nltk.org/book_1ed/) - 他们目前正在为Python 3和NLTK 3修改版本 – Ksofiac 2017-06-14 20:53:30
[link to Python 3 book](http: //www.nltk.org/book/) – Ksofiac 2017-06-15 14:02:49