我在许多子目录中有许多文件,所有文件都以逗号分隔。我想通过组第一场中的每个文件并运行记录总数由多个文件组成
A = LOAD '/files/*' USING PigStorage(',') as (f1, f2, f3, f4, f5);
B = GROUP A ALL;
C = GROUP B BY f1;
D = FOREACH C GENERATE COUNT(f1) ;
DUMP D;
这段代码给了我我错误
无效场投影。计划字段[f1]在模式中不存在:group:chararray,A:bag {:tuple(f1:chararray,f2:bytearray,f3:bytearray,f4:bytearray,f5:bytearray)}。
谢谢!那就是诀窍。 – Jimmy