1
A
回答
2
我不知道你是否仍然需要和回答,但总之,如果你想收集给定单词的所有可能的含义,不要使用消歧义页面。 为什么?因为它们格式不正确,并且通常包含很多与单词的某些含义不相符的链接。即使你只解析以*开头的第一行并收集该行的第一个链接,你仍然会得到错误的结果。 相反,您应该收集维基百科中的所有链接,并将它们的锚文本存储为关键字和目标文章,尽可能为该关键字指定含义。作为一个副作用,你可以得到关于一个单词对应某个特定含义的频率的很好统计数据。可能含义的另一个资源是重定向页面和文章标题。例如:您可以收集具有相同实体但消歧部分不同的所有文章,并将其用作该实体的可能含义。
如果你想要更详细的解释,只需在评论中回答,我还可以提供一些关于如何收集和索引的代码,包含维基百科中包含的所有重定向,实体和链接文本的可能含义。
相关问题
- 1. 使用维基百科消歧
- 2. 维基百科消歧错误
- 3. 如何使用维基百科API从维基百科上的类别页面获取所有子类别?
- 4. 如何获得维基百科页面的子集?
- 5. 如何获得多语言的维基百科页面?
- 6. 如何获取某些维基百科页面引用的所有页面?
- 7. 从维基百科页面获取xml
- 8. 获取维基百科页面上的所有链接
- 9. 在python中搜索所有维基百科页面的短语
- 10. 区分维基百科对普通页面的歧义
- 11. 获取链接到给定维基百科页面的所有页面ID
- 12. 如何使用LINQ to Wiki从维基百科获取所有城市页面?
- 13. 如何获取维基百科API所有返回页面的摘录?
- 14. 如何从维基百科页面刮取第一段?
- 15. 返回维基百科页面上的所有图像
- 16. 如何从维基百科页面获取表格数据?
- 17. 如何从维基百科获取标题页面
- 18. 维基百科API:如何获取页面修订的数量?
- 19. 如何获取维基百科页面的HTML源代码?
- 20. 维基百科第一段
- 21. 维基百科页面的子类别
- 22. 查询维基百科数据页面
- 23. 刮和解析维基百科页面
- 24. Perl不加载维基百科页面?
- 25. 与维基百科页面卷曲php
- 26. python3解析和维基百科页面
- 27. 维基百科页面视图statistcs
- 28. 获得维基百科文章概要
- 29. 如何解析所有维基百科的网页?
- 30. PHP +维基百科:从维基百科文章的第一段获取内容?
我不知道JWPL,但它应该足以获得该网页中文章的所有链接。 – svick 2012-03-06 09:46:25
给定一个词,你能得到那个消歧义页吗?如果可以的话,你能告诉我如何? – user1210738 2012-03-12 01:43:21
你可以尝试“Term”,然后选择“Term(disambiguation)”。当它位于类别[所有消歧页面](http://en.wikipedia.org/wiki/Category:All_disambiguation_pages)中时,您确定该页面是消歧页面。 – svick 2012-03-12 02:29:10