我有一个猪脚本,运行一个非常耗时的UDF。猪似乎将UDF设置为作为地图作业运行而不是减少作业。结果,创建一个次优的少量映射器来运行这项工作。我知道我可以使用setDefaultParallel
以及PigLatin中的PARALELL x
命令设置用于猪的缩减器的默认数量,以设置给定生产线的缩减器的数量。但是,我如何设置mappers的数量呢?通过定义我自己的InputSplit大小,我已经看到有关增加映射器数量的文章,但我想明确地将映射器的数量设置为主机数量*内核数量,文件大小与它无关。猪:强制UDF发生在减速器或设定的映射器数量
如果我无法控制mappers的数量,是否有强迫我的UDF作为reducer出现,因为我可以控制这些?
啊,那太臭了......哦,谢谢。 – Manny