0
我正在构建一个搜索引擎,并对其进行测试,它需要更多文章。他们的最佳来源是维基百科。如何提取和导入维基百科页面?
我已经搜索了一些转储,但有些是XML(我有麻烦导入),有些没有内容。
那么,如何获得转储,最好是以MySQL的形式。它必须是非英语语言。
有什么想法?
我正在构建一个搜索引擎,并对其进行测试,它需要更多文章。他们的最佳来源是维基百科。如何提取和导入维基百科页面?
我已经搜索了一些转储,但有些是XML(我有麻烦导入),有些没有内容。
那么,如何获得转储,最好是以MySQL的形式。它必须是非英语语言。
有什么想法?
你能举一个内容格式的小例子吗? – Eray 2011-01-22 22:55:17
如果你有来自维基百科的sql转储,你将拥有一个维基百科的克隆,你需要一个wiki软件来获得任何看起来像文章的东西。有apis可用,我强烈建议从api或许多可用的结构化数据选项之一导入。 – mirzu 2011-01-22 23:01:03