2015-04-01 66 views
0

我正试图优化nutch的性能来抓取网站。现在我测试小Hadoop群集上的性能,只有两个节点32GB RAM,CPU Intel Xeon E3 1245v2 4c/8t。 我的配置nutch http://pastebin.com/bBRHpFuq优化hadoop集群上的nutch性能

所以,问题:取工作并不理想。一些减少任务有4k页用于抓取,一些1kk页面。例如查看屏幕截图https://docs.google.com/file/d/0B98dgNxOqKMvT1doOVVPUU1PNXM/edit一些减少任务在10分钟内完成,但一个任务工作11小时,仍然继续工作,所以当我有24个减少任务时,它就像一个瓶颈,但只有一个工作。

可能有人可以提供有用的建议或链接,我可以阅读有关问题。

回答

1

这是Nutch的问题,它从一个站点需要大约50000000个,其他站点需要500000个。所以当它通过主机创建队列时,我们会看到一个非常大的队列和其他很小的队列。