2014-11-24 57 views
1

我有一台两台机器集群。在一台机器上配置nutch,并在第二个hbase和hadoop上配置。 hadoop处于完全分布式模式,hbase处于伪分布式模式。我已经抓取了大约280GB的数据。但现在当我开始爬行时。它提供了以下消息,不抓取任何更多的在上表Apache nutch不再爬行

信息mapreduce.GoraRecordReader - gora.buffer.read.limit = 10000 信息crawl.FetchScheduleFactory - 使用FetchSchedule IMPL:org.apache.nutch.crawl.DefaultFetchSchedule

和以下错误

错误store.HBaseStore - [Ljava.lang.StackTraceElement; @ 7ae0c96b

文件被取出,但他们不会保存在HBase的。 但是,如果我抓取新表中的数据,它运作良好,并正常爬取任何错误。我认为这不是一个连接问题,因为它工作的新表。我认为这是一些财产等因素。

任何人都可以引导我,因为我不是apache nutch的专家吗?

+0

http://wiki.apache.org/nutch/Nutch2Tutorial?action=show&redirect=GORA_HBase – Kumar 2014-11-26 07:07:55

+0

Stackoverflow不是一个好的地方问Nutch的问题,把它发送到maillist。在我的印象中,Nutch2.X并不像Nutch1.X那样可靠。 – 2014-12-03 05:33:50

回答

0

由于我还面临类似的问题。实际的问题是区域服务器(Hbase deamon)。因此,请尝试重新启动它,因为它在默认seeting中使用时会关闭,并且数据在hbase中过于突变。有关更多信息,请参阅regionserver的日志文件。

0

不是我的领域,但看起来像在底层机器上的线程耗尽。

+0

我必须在确认之前对其进行变更 – Shafiq 2014-12-04 04:41:12