solr + Heritrix

如何将solr与heritrix集成？solr + Heritrix

我想使用heritrix将网站存档，然后使用solr在本地索引和搜索本地文件。

感谢

2009-11-03 massinissa

使用Solr进行索引的问题在于它是一个直接的文本索引（如果您只是抓取内部网站并且不在意'pagerank'，这可能很好）。

使用Nutch会给你一个更好的索引，但它确实使用了PageRank。

NutchWAX

然而，如果你是使用Heritrix的和想的PageRank基于搜索结果，你可以使用NutchWAX（Nutch的Web存档扩展），以指数Heritrix的输出deadset（这就是Heritrix的的制造商都这样做）。 NutchWAX适用于网络档案，但也可用于创建实时网页的搜索引擎（事实上，这更容易，因为在每次索引重建期间，您都不会拖动数年的数据）。

Solr的

如果你想使用Heritrix的+ Solr的创建一个搜索网站，你应该与提交页面的内容到Solr定制的处理器取代“ARCWriter”处理器Heritrix的。

Solr最终只是一个通过HTTP发布的XML文件，并且非常简单。如果你使用的是--as yet-- unstable 3.x或者已经停止使用的版本2，那么Heritrix的结束会稍微复杂一些，但是Developer's Manual会让你开始为Heritrix 1.x编写处理器.x - 因为文档还没有出现，你需要做更多的修改。）。

来源

2009-11-05 17:04:05 Kris

据this message，是：

这是很容易定制的作家加入到Heritrix的。我们编写我们的抓取到MySQL，然后从那里摄入到Solr。然而，写入直接写入Solr的Heritrix writer并不难。

- 肖恩·蒂姆

或者你可能想使用Nutch取而代之的是更多的工作，争取与Solr的集成完成它：

来源

2009-11-03 12:47:36

Solr 1.4企业级搜索书中有关于u的章节一起唱Heritrix和Solr。基本上使用Heritrix来抓取，然后在一个单独的进程中解析存档文件并添加Solr。尽管Nutch提供了诸如网页排名分数之类的内容，但它确实可以简化您的搜索引擎和搜索引擎是单独的工具。

这基本上是Mauricio使用的方法，将数据作为中间步骤存储到MySQL中。我们在亚马逊EC2 AMI上发布了本书的所有源代码，寻找“solrbook”。此外，Packt的支持站点（http://www.packtpub.com/solr-1-4-enterprise-search-server）将允许您下载示例。

来源

2009-11-03 15:26:31

为了同样的目的，我用了你。

首先下载YouSeer.jar然后，

java -jar YouSeer.jar http://localhost:8983/solr/update /cygdrive/d/arcs /cached 3 0

它在内部使用的ArcReader来读取文件，然后将它们上传到Solr。 YouSeer代码非常简单，为了我的目的我不得不修改一下..

来源

2011-08-24 06:31:47 binit

回答

相关问题