如何控制猪作业或地图调度作业中存储在零件文件中的记录数量？

2013-08-16 22 views 0 likes

谢谢。

回答

不容易（如果有的话）。输出中的零件文件数量由脚本的并行性决定，数据被非确定性地分割为这些零件文件。我能想到的唯一的办法是这样的：

A = FOREACH output GENERATE 1 AS num ; 
B = FOREACH (GROUP A ALL) GENERATE COUNT(A) AS totaloutputlines ; 
-- Then store both output and B

然后，从Python包装内，使用totaloutputlines设置python封装运行脚本的并行性，使PAR = number of lines in B/number of lines you want per file。这将希望,约控制每部分文件的记录数。

也许你可以用MultiStorage得到你想要的东西，把你输出的字段分成一个文件。

2013-08-16 15:06:12 mr2ert