回答
使用Solr进行索引的问题在于它是一个直接的文本索引(如果您只是抓取内部网站并且不在意'pagerank',这可能很好)。
使用Nutch会给你一个更好的索引,但它确实使用了PageRank。
NutchWAX
然而,如果你是使用Heritrix的和想的PageRank基于搜索结果,你可以使用NutchWAX(Nutch的Web存档扩展),以指数Heritrix的输出deadset(这就是Heritrix的的制造商都这样做)。 NutchWAX适用于网络档案,但也可用于创建实时网页的搜索引擎(事实上,这更容易,因为在每次索引重建期间,您都不会拖动数年的数据)。
Solr的
如果你想使用Heritrix的+ Solr的创建一个搜索网站,你应该与提交页面的内容到Solr定制的处理器取代“ARCWriter”处理器Heritrix的。
Solr最终只是一个通过HTTP发布的XML文件,并且非常简单。如果你使用的是--as yet-- unstable 3.x或者已经停止使用的版本2,那么Heritrix的结束会稍微复杂一些,但是Developer's Manual会让你开始为Heritrix 1.x编写处理器.x - 因为文档还没有出现,你需要做更多的修改。)。
据this message,是:
这是很容易定制的作家加入到Heritrix的。我们编写我们的抓取 到MySQL,然后从那里摄入到Solr。然而, 写入直接写入Solr的Heritrix writer并不难。
- 肖恩·蒂姆
或者你可能想使用Nutch取而代之的是更多的工作,争取与Solr的集成完成它:
Solr 1.4企业级搜索书中有关于u的章节一起唱Heritrix和Solr。基本上使用Heritrix来抓取,然后在一个单独的进程中解析存档文件并添加Solr。尽管Nutch提供了诸如网页排名分数之类的内容,但它确实可以简化您的搜索引擎和搜索引擎是单独的工具。
这基本上是Mauricio使用的方法,将数据作为中间步骤存储到MySQL中。我们在亚马逊EC2 AMI上发布了本书的所有源代码,寻找“solrbook”。此外,Packt的支持站点(http://www.packtpub.com/solr-1-4-enterprise-search-server)将允许您下载示例。
为了同样的目的,我用了你。
首先下载YouSeer.jar然后,
java -jar YouSeer.jar http://localhost:8983/solr/update /cygdrive/d/arcs /cached 3 0
它在内部使用的ArcReader来读取文件,然后将它们上传到Solr。 YouSeer代码非常简单,为了我的目的我不得不修改一下..
- 1. Heritrix内容过滤
- 2. 使用Heritrix的1.14
- 3. Heritrix DecidingScope正则表达式URI
- 4. 如何远程使用Heritrix的webUI
- 5. 使用Nutch或Heritrix定向抓取
- 6. Heritrix的HtmlFormCredential和CredentialStore的使用
- 7. 更改Heritrix 3.1.0中MirrorWriterProcessor的路径
- 8. 从Lucene索引更新Solr索引
- 9. 在抓取的文件存储在Heritrix的网络爬虫
- 10. 我们如何知道Heritrix何时完成爬网工作?
- 11. 找到网络跟踪到heritrix的网络列表
- 12. 我如何排除一切,但从heritrix抓取文本/ html?
- 13. 如何使用Heritrix使用HeaderedArchiveRecord来遍历WARC文件3.1
- 14. 如何使用Python从Heritrix爬虫中读取.ARC文件?
- 15. Heritrix:仅针对一个站点忽略robots.txt
- 16. 我如何排除一切,但从heritrix爬行链接/ outlinks?
- 17. 的Solr Solr中4.6.1
- 18. solr云中创建Solr核心(solr 4.1.0)
- 19. solr
- 20. mysql + solr或solr本身
- 21. Nutch v Solr v Nutch + Solr
- 22. SOLR在使用solr导入
- 23. solr java.lang.NoClassDefFoundError:org/apache/solr/common/ResourceLoader
- 24. Solr不能正确重新绑定 - Solr 4的Sunspot Solr
- 25. solr clobtransfomer
- 26. 在solr
- 27. Solr Container
- 28. Solr中
- 29. Solr addfilterquery
- 30. SOLR WordDelimiterFilterFactory