2009-11-03 27 views
2

如何将solr与heritrix集成?solr + Heritrix

我想使用heritrix将网站存档,然后使用solr在本地索引和搜索本地文件。

感谢

回答

4

使用Solr进行索引的问题在于它是一个直接的文本索引(如果您只是抓取内部网站并且不在意'pagerank',这可能很好)。

使用Nutch会给你一个更好的索引,但它确实使用了PageRank。

NutchWAX

然而,如果你是使用Heritrix的想的PageRank基于搜索结果,你可以使用NutchWAX(Nutch的Web存档扩展),以指数Heritrix的输出deadset(这就是Heritrix的的制造商都这样做)。 NutchWAX适用于网络档案,但也可用于创建实时网页的搜索引擎(事实上,这更容易,因为在每次索引重建期间,您都不会拖动数年的数据)。

Solr的

如果你想使用Heritrix的+ Solr的创建一个搜索网站,你应该与提交页面的内容到Solr定制的处理器取代“ARCWriter”处理器Heritrix的。

Solr最终只是一个通过HTTP发布的XML文件,并且非常简单。如果你使用的是--as yet-- unstable 3.x或者已经停止使用的版本2,那么Heritrix的结束会稍微复杂一些,但是Developer's Manual会让你开始为Heritrix 1.x编写处理器.x - 因为文档还没有出现,你需要做更多的修改。)。

3

Solr 1.4企业级搜索书中有关于u的章节一起唱Heritrix和Solr。基本上使用Heritrix来抓取,然后在一个单独的进程中解析存档文件并添加Solr。尽管Nutch提供了诸如网页排名分数之类的内容,但它确实可以简化您的搜索引擎和搜索引擎是单独的工具。

这基本上是Mauricio使用的方法,将数据作为中间步骤存储到MySQL中。我们在亚马逊EC2 AMI上发布了本书的所有源代码,寻找“solrbook”。此外,Packt的支持站点(http://www.packtpub.com/solr-1-4-enterprise-search-server)将允许您下载示例。

1

为了同样的目的,我用了你。

首先下载YouSeer.jar然后,

java -jar YouSeer.jar http://localhost:8983/solr/update /cygdrive/d/arcs /cached 3 0

它在内部使用的ArcReader来读取文件,然后将它们上传到Solr。 YouSeer代码非常简单,为了我的目的我不得不修改一下..