2014-09-22 76 views
1
  • 我需要一个开放源代码的网络爬虫,在java中开发,增加了爬网支持。针对windows的增量爬网支持的网络爬虫

  • 网络爬虫应该很容易定制并与solr或elasticsearch集成。

  • 它应该是一个积极的,正在进一步发展与更多的功能。

  • Aperture是一个很好的抓取工具之一,它具有我提到的所有特性,但它不是一个活动抓取工具,并且由于许可证(如果我用它用于商业用途)我忽略了它们的依赖关系。

  • Nutch - 一个具有更多hadoop支持功能的网络爬虫。但是我经历了很多网站和教程,没有合适的文档,找到了在Windows中以编程方式定制它的api。我可以在eclipse中编辑代码,但在运行地图缩减作业时会导致很多错误。对于nutch来说,没有像Java那样的Java API。

  • Crawl4j是一个很好的网络爬虫,但它没有增量爬行功能,我没有检查许可问题。

有哪些有我提到的或有没有办法用我的要求,上述履带中的任何一个所有功能的任何其他履带?

有用的答案将不胜感激。

回答

0

看起来像Norconex HTTP Collector绝配:

  • 它是用Java编写的100%。
  • 它在Windows上完全运行(不需要Cygwin或Linux/Unix VM)。
  • 它有很好的记录与例子和论坛问问题/提出问题(github)。
  • 它支持增量爬行,检测修改后的文档以及删除的文档。
  • 它支持Solr和Elasticsearch等等(通过使用它的“提交者”)。
  • 它是广泛配置/灵活。很容易与它集成并为其提供自定义功能,而无需学习复杂的插件机制(实现一个接口,将其放入classpath中,并且可以)。
  • 其发展非常活跃。

它由企业搜索专业人士公司Norconex维护。问题很快解决。版本2.0.0正在大量工作,不久将带来许多新功能(语言检测,文档分割等)。

这是GPL,但如果GPL对您来说是一个问题,Norconex会提供商业许可。

它还有许多其他功能,您没有列出,如在将文档内容发送到您的搜索引擎之前操纵文档内容的能力。它还支持站点地图,机器人规则等。我邀请您试试看:http://www.norconex.com/product/collector-http/

+0

非常感谢@Pascal Essiebre – Kumar 2014-10-13 04:41:41