我想用一些印度语维基百科数据填充一些表格。我必须填写文章标题,类别和相应的英文网址。 现在我通过解析html文件并找到特定的div标签来查找类别和英语url。这花了很多时间。有没有直接和有效的方式来填充类别。请让我知道。 我从链接下载印地文维基百科:ftp://wikipedia.c3sl.ufpr.br/wikipedia/hiwiki/20131201/Wikipedia数据提取
0
A
回答
1
您既可以使用某种形式的分析引擎喜欢Wikiprep的:http://www.cs.technion.ac.il/~gabr/resources/code/wikiprep/
或者你可以使用MediaWiki的引擎来处理维基标记语言。 http://www.mediawiki.org/wiki/Manual:Importing_XML_dumps
可能有,可能是有关你的情况下,一些其他的选择,你可以看看这里也: http://en.wikipedia.org/wiki/Wikipedia:Database_download#Help_importing_dumps_into_MySQL
(我个人使用的选项#1和#2)
相关问题
- 1. 获取随机Wikipedia提取与Ajax
- 2. 从Wikipedia XML转储提取坐标+ Zoomlevel
- 3. Wikipedia Graph数据库插入
- 4. 如何创建word2vec模型与从python的wikipedia摘要中提取的数据
- 5. 无法通过Wikipedia API下载数据
- 6. 如何通过API获取Wikipedia文章的维基数据ID?
- 7. 从Wikipedia获取数据时连接中止
- 8. 是否有办法批量获取Wikipedia图像元数据?
- 9. 在MQL中获取Wikipedia ID
- 10. 获取Wikipedia锚文本
- 11. 提取数据
- 12. 提取数据
- 13. 提取数据
- 14. 数据提取
- 15. 提取数据
- 16. 提取数据
- 17. 提取数据
- 18. 提取数据
- 19. 数据提取
- 20. 提取数据
- 21. 数据提取?
- 22. 提取数据
- 23. 提取数据
- 24. 提取数据
- 25. 提取数据 -
- 26. 提取数据
- 27. 提取数据
- 28. 提取数据
- 29. 提取数据
- 30. 提取数据