Wikipedia数据提取

2013-12-11 30 views 0 likes

我想用一些印度语维基百科数据填充一些表格。我必须填写文章标题，类别和相应的英文网址。现在我通过解析html文件并找到特定的div标签来查找类别和英语url。这花了很多时间。有没有直接和有效的方式来填充类别。请让我知道。我从链接下载印地文维基百科：ftp://wikipedia.c3sl.ufpr.br/wikipedia/hiwiki/20131201/Wikipedia数据提取

来源

2013-12-11 user2281107

回答

您既可以使用某种形式的分析引擎喜欢Wikiprep的：http://www.cs.technion.ac.il/~gabr/resources/code/wikiprep/

或者你可以使用MediaWiki的引擎来处理维基标记语言。 http://www.mediawiki.org/wiki/Manual:Importing_XML_dumps

可能有，可能是有关你的情况下，一些其他的选择，你可以看看这里也： http://en.wikipedia.org/wiki/Wikipedia:Database_download#Help_importing_dumps_into_MySQL

（我个人使用的选项＃1和＃2）

来源

2013-12-11 12:29:02 Noam

Wikipedia数据提取

回答

相关问题