我想找到一种方法来获取所有传入链接到维基百科页面(从维基百科内的其他页面)的锚文本。我已经阅读了一些已经完成了这些信息实验的论文(例如http://web2py.iiit.ac.in/research_centres/publications/download/inproceedings.pdf.809e1550d80bca59.4d756c7469446f635f53756d6d6172697a6174696f6e5f46696e616c2e706466.pdf) ,但他们似乎没有解释他们如何获得这些信息。我知道有一种资源叫做YAGO,它提供了链接到相关页面的维基百科页面,但似乎没有提供锚文本。任何人都可以提出一种获取这些信息的方式吗获取Wikipedia锚文本
1
A
回答
0
0
更详细的信息,你可以做的是:
- 下载维基百科从https://dumps.wikimedia.org/enwiki/转储文件。选择
latest
,然后选择enwiki-latest-pages-articles.xml.bz2 - 清理维基百科转储文件https://github.com/attardi/wikiextractor。使用标记
l, --links
保留链接
现在,您已经清除了包含锚文本的纯文本维基百科纯文本。使用任何编程语言,您可以解析这些文件并提取锚文本。
相关问题
- 1. 在MQL中获取Wikipedia ID
- 2. 如何使用DomDocument获取锚文本?
- 3. 获取文本中的锚标签
- 4. 使用javascript获取锚标记文本
- 5. 从锚标记获取文本
- 6. 如何获取Wikipedia文章的所有XML修订版本?
- 7. 获取随机Wikipedia提取与Ajax
- 8. 在文本节点中获取锚点中的文本
- 9. 获取锚父
- 10. Wikipedia api从wikipage获取jpeg图像
- 11. Wikipedia API:按时间表获取修订
- 12. 如何从wikipedia API获取图片?
- 13. php Wikipedia API JSON获取页面ID
- 14. Wikipedia数据提取
- 15. 提取锚文本周围的文字
- 16. 如何获取维基百科页面的HTML内容文本(通过Wikipedia API)?
- 17. 如何使用AJAX获取Wikipedia网页或获取()
- 18. jQuery获取锚值
- 19. 如何通过API获取Wikipedia文章的维基数据ID?
- 20. 使用NSScanner获取Wikipedia文章摘要问题
- 21. 如何使用Wikipedia API获取文章的主要类别
- 22. 使用Wikipedia API获取PHP中的文章时间戳
- 23. 使用Python从Wikipedia html中提取文本
- 24. 获取ckeditor文档中的锚点
- 25. 如何在代码后面获取锚标记文本?
- 26. 如何获取锚点DOMElement的值/文本?
- 27. jquery - 在锚标记后获取文本值
- 28. 如何获取锚标签的文本内容?
- 29. Xpath表达式获取href。不只是锚文本
- 30. PHP preg_replace链接获取href和锚文本并连接它
也许他们已经简单地下载了转储并解析了文件以提取链接。 – Bergi 2014-10-03 01:01:35
你可以(并且在这种情况下**应该**)总是问作者。他们的联系信息在论文中。也许他们甚至会给你发送他们的数据! – Bergi 2014-10-03 01:10:10