Apache nutch不再爬行

我有一台两台机器集群。在一台机器上配置nutch，并在第二个hbase和hadoop上配置。 hadoop处于完全分布式模式，hbase处于伪分布式模式。我已经抓取了大约280GB的数据。但现在当我开始爬行时。它提供了以下消息，不抓取任何更多的在上表Apache nutch不再爬行

信息mapreduce.GoraRecordReader - gora.buffer.read.limit = 10000 信息crawl.FetchScheduleFactory - 使用FetchSchedule IMPL：org.apache.nutch.crawl.DefaultFetchSchedule

和以下错误

错误store.HBaseStore - [Ljava.lang.StackTraceElement; @ 7ae0c96b

文件被取出，但他们不会保存在HBase的。但是，如果我抓取新表中的数据，它运作良好，并正常爬取任何错误。我认为这不是一个连接问题，因为它工作的新表。我认为这是一些财产等因素。

任何人都可以引导我，因为我不是apache nutch的专家吗？

来源

2014-11-24 Shafiq

http://wiki.apache.org/nutch/Nutch2Tutorial?action=show&redirect=GORA_HBase – Kumar 2014-11-26 07:07:55

Stackoverflow不是一个好的地方问Nutch的问题，把它发送到maillist。在我的印象中，Nutch2.X并不像Nutch1.X那样可靠。 – 2014-12-03 05:33:50

由于我还面临类似的问题。实际的问题是区域服务器（Hbase deamon）。因此，请尝试重新启动它，因为它在默认seeting中使用时会关闭，并且数据在hbase中过于突变。有关更多信息，请参阅regionserver的日志文件。

来源

2014-12-19 07:20:21 HMS

不是我的领域，但看起来像在底层机器上的线程耗尽。

来源

2014-12-03 05:29:30

我必须在确认之前对其进行变更 – Shafiq 2014-12-04 04:41:12

Apache nutch不再爬行

回答

相关问题