可以使用Lucene基准来索引维基百科转储吗?我希望能够在最新的英文维基百科页面转储上执行短语查询。我正在尝试查找示例用例,但我没有找到任何用例。使用Lucene索引维基百科
我下载了最新的英文转储,命名为: enwiki-最新的页面,articles.xml.bz2
然后我在终端运行的命令: 的Java org.apache.lucene.benchmark.utils。 ExtractWikipedia -i〜/ enwiki-最新的页面,articles.xml.bz2
我相信提取的页面转换成标目录“enwiki”
现在有别的东西在基准,我需要运行为了索引维基? README.enwiki并没有给我一个明确的指示,实际上我甚至不确定我是否应该运行ExtractWikipedia类。
这个问题似乎在于StackOverflow ServerFault和SuperUser之间的奇怪谷。 – ObscureRobot