2013-08-16 22 views

回答

0

不容易(如果有的话)。输出中的零件文件数量由脚本的并行性决定,数据被非确定性地分割为这些零件文件。我能想到的唯一的办法是这样的:

A = FOREACH output GENERATE 1 AS num ; 
B = FOREACH (GROUP A ALL) GENERATE COUNT(A) AS totaloutputlines ; 
-- Then store both output and B 

然后,从Python包装内,使用totaloutputlines设置python封装运行脚本的并行性,使PAR = number of lines in B/number of lines you want per file。这将希望,控制每部分文件的记录数。

也许你可以用MultiStorage得到你想要的东西,把你输出的字段分成一个文件。