0
我正试图优化nutch的性能来抓取网站。现在我测试小Hadoop群集上的性能,只有两个节点32GB RAM,CPU Intel Xeon E3 1245v2 4c/8t。 我的配置nutch http://pastebin.com/bBRHpFuq优化hadoop集群上的nutch性能
所以,问题:取工作并不理想。一些减少任务有4k页用于抓取,一些1kk页面。例如查看屏幕截图https://docs.google.com/file/d/0B98dgNxOqKMvT1doOVVPUU1PNXM/edit一些减少任务在10分钟内完成,但一个任务工作11小时,仍然继续工作,所以当我有24个减少任务时,它就像一个瓶颈,但只有一个工作。
可能有人可以提供有用的建议或链接,我可以阅读有关问题。