2011-01-22 23 views
0

我正在构建一个搜索引擎,并对其进行测试,它需要更多文章。他们的最佳来源是维基百科。如何提取和导入维基百科页面?

我已经搜索了一些转储,但有些是XML(我有麻烦导入),有些没有内容。

那么,如何获得转储,最好是以MySQL的形式。它必须是非英语语言。

有什么想法?

+0

你能举一个内容格式的小例子吗? – Eray 2011-01-22 22:55:17

+0

如果你有来自维基百科的sql转储,你将拥有一个维基百科的克隆,你需要一个wiki软件来获得任何看起来像文章的东西。有apis可用,我强烈建议从api或许多可用的结构化数据选项之一导入。 – mirzu 2011-01-22 23:01:03

回答

3

Here是解释如何将维基百科导入Solr的页面。

Here是将维基百科转储加载到Mysql以运行本地克隆的分步解释。