2011-10-23 62 views
1

可以使用Lucene基准来索引维基百科转储吗?我希望能够在最新的英文维基百科页面转储上执​​行短语查询。我正在尝试查找示例用例,但我没有找到任何用例。使用Lucene索引维基百科

我下载了最新的英文转储,命名为: enwiki-最新的页面,articles.xml.bz2

然后我在终端运行的命令: 的Java org.apache.lucene.benchmark.utils。 ExtractWikipedia -i〜/ enw​​iki-最新的页面,articles.xml.bz2

我相信提取的页面转换成标目录“enwiki”

现在有别的东西在基准,我需要运行为了索引维基? README.enwiki并没有给我一个明确的指示,实际上我甚至不确定我是否应该运行ExtractWikipedia类。

+2

这个问题似乎在于StackOverflow ServerFault和SuperUser之间的奇怪谷。 – ObscureRobot

回答

1

只要运行“ant”;我在Lucene邮件列表上发布了更全面的答案,但这基本上是它的要点。 build.xml文件有很多用于运行基准测试的目标。

+0

你可以在Lucene邮件列表中添加一个链接到你的答案,或者在这里粘贴答案?我想尝试这个解决方案,但没有说明。 – anthonybell

+0

下面是2011年旧版主题的链接:http://markmail.org/thread/qhkh7lyxff77kskr YMMV我不确定那里的解决方案仍然有效,因为从那以后,Lucene经历了许多变化...... –

0

维基媒体基金会一直致力于新项目DiffDb。使用Hadoop,我们创建两个修订之间的差异,所有这些差异使用Lucene进行索引。您可以在GitHub上的代码:

只是在英文维基百科的最终索引是1.4TB,但你可以做很酷的查询,如谁在2005年4月增加了foo,谁删除了超过10k的字节等等等等。