我有一台两台机器集群。在一台机器上配置nutch,并在第二个hbase和hadoop上配置。 hadoop处于完全分布式模式,hbase处于伪分布式模式。我已经抓取了大约280GB的数据。但现在当我开始爬行时。它提供了以下消息,不抓取任何更多的在上表Apache nutch不再爬行
信息mapreduce.GoraRecordReader - gora.buffer.read.limit = 10000 信息crawl.FetchScheduleFactory - 使用FetchSchedule IMPL:org.apache.nutch.crawl.DefaultFetchSchedule
和以下错误
错误store.HBaseStore - [Ljava.lang.StackTraceElement; @ 7ae0c96b
文件被取出,但他们不会保存在HBase的。 但是,如果我抓取新表中的数据,它运作良好,并正常爬取任何错误。我认为这不是一个连接问题,因为它工作的新表。我认为这是一些财产等因素。
任何人都可以引导我,因为我不是apache nutch的专家吗?
http://wiki.apache.org/nutch/Nutch2Tutorial?action=show&redirect=GORA_HBase – Kumar 2014-11-26 07:07:55
Stackoverflow不是一个好的地方问Nutch的问题,把它发送到maillist。在我的印象中,Nutch2.X并不像Nutch1.X那样可靠。 – 2014-12-03 05:33:50