我无法在Hadoop YARN上为Nutch 1.7运行多个获取Map获取。在Hadoop群集上运行多个Apache Nutch获取地图任务
我正在使用bin/crawl脚本,并进行了以下调整以触发具有多个地图任务的提取,但我无法这样做。
将maxNumSegments和numFetchers参数添加到生成阶段。 $斌/ Nutch的产生$ commonOptions $ CRAWL_PATH/crawldb $ CRAWL_PATH /段-maxNumSegments $ numFetchers -numFetchers $ numFetchers -noFilter
删除了TOPN放慢参数并删除了noParsing参数,因为我想解析当时发生的提取。 $斌/ Nutch的取$ commonOptions -D fetcher.timelimit.mins = $ $ timeLimitFetch CRAWL_PATH /分段/ $ SEGMENT -threads $ numThreads#-noParsing#
的生成相位不产生多于一个的段。
因此,获取阶段不会创建多个地图任务,我相信脚本写入它不允许fecth感染多个segemnts,即使生成要生成多个段。
有人能让我知道,他们如何让脚本在分布式Hadoop集群中运行?或者如果有不同版本的脚本应该使用?
谢谢。