0
我有一个3从机hadoop群集,我正在一个网站上执行爬网。但是,只有一个从机正在执行提取(尽管其他从机仍然存在)。如果只有1个域被抓取,这是正常行为吗?有什么办法可以强制其他奴隶去取?nutch hadoop只有一个从机正在爬行
谢谢。
我有一个3从机hadoop群集,我正在一个网站上执行爬网。但是,只有一个从机正在执行提取(尽管其他从机仍然存在)。如果只有1个域被抓取,这是正常行为吗?有什么办法可以强制其他奴隶去取?nutch hadoop只有一个从机正在爬行
谢谢。
作为任何Hadoop MR作业设计的一部分,有一个决定如何在作图器之间分割作品。 在您的情况下,nutch会将站点的抓取过程分开,结果只有一个映射器用于抓取数据。如果你有更多的网站,它会分割负载。
以下是对过程的一个很好的描述:Nutch如何与Hadoop集群一起工作?