apache-pig

0热度

1回答

在我的猪脚本中，我希望文件名与每个记录进行一些进一步处理，所以我使用了-tagFile选项。现在，使用-tagFile选项后，列名都拿到未对齐所以我用下面的命令参照这个博客后，只得到所需的列：http://www.webopius.com/content/764/resolved-apache-pig-with-tagsource-tagfile-option-generates-incorrec

1热度

1回答

猪没有得到与SUM（）计算值

我的命令是为下： Z = LOAD '/..file_path' USING PigStorage(',') AS (name:CHARARRAY,gpa:int,salary:int); y = GROUP Z BY gpa; R = FOREACH y GENERATE SUM(Z.salary); 我得到的 DUMP R; 输出为： {all,()}; 请指导我。 TIA。

0热度

1回答

猪 - 如何使用shell命令模式文件/文件夹名称

猪脚本中是否有使用这种语法的方法？命令： /* some pig latin code here */ mv /user/test/folder_pattern* /path/to/move /* some pig latin code here */ 错误： [main] ERROR org.apache.pig.tools.grunt.Grunt - ERROR 2997: En

-1热度

1回答

在配置单元中对非结构化数据执行单词计数时出错

我正在运行此配置单元查询以获得非结构化数据上的单词明智数。 select a, count(*) from (select(EXPLODE(SPLIT(regexp_replace(upper(word,'[[email protected]#$%&*]',''))) AND EXPLODE(SPLIT(regexp_replace(UPPER(word,'[^A-Za-z0-9 ]','')))

2热度

1回答

由crontab调度的猪脚本没有给出结果

我有猪脚本，当我从猪（地图减少模式）运行时给出正确的结果，但是当我从crontab计划不按照脚本存储输出。猪脚本， a1 = load '/user/training/abhijit_hdfs/id' using PigStorage('\t') as (id:int,name:chararray,desig:chararray); a2 = load '/user/training/abhi

1热度

3回答

猪脚本不适用于MapReduce

我正在尝试使用Hadoop和Apache Pig。我有一些数据和脚本中的.txt文件.pig与我的脚本文件： student = LOAD '/home/srv-hadoop/data.txt' USING PigStorage(',') as (id:int, firstname:chararray, lastname:chararray, phone:chararray, city:

-1热度

1回答

我们可以在Apache pig中访问脚本B中脚本A加载的关系吗？

我的问题是，如果有一种方法可以从script2.pig访问sript1.pig中的关系“data1”版本，而无需再次加载数据？ script1.pig具有： data1 = LOAD '$some_location'USING PigStorage('\t') AS (...); RUN script2.pig; EXEC; script2.pig有： filter1 = FILTER dat

0热度

1回答

收到错误1070，而在猪

袋子上用枚举我尝试使用下面的代码来枚举袋： DEFINE Enumerate datafu.pig.bags.Enumerate('1'); group = GROUP data1 By (query_text); ranked = FOREACH group { ordered = ORDER data1 BY score DESC;

-1热度

1回答

与猪

卸妆数据考虑CSV数据的以下两行： 01-15-2014 12:04:05, row1 2014/02/20, row2 第1行具有所需的时间戳格式MM-DD-YYYY HH：MM：SS。第2行时间戳需要转换为匹配。那么我怎样才能完成这项任务。

0热度

1回答

去除猪

空行我有一个数据集，像一击： 1,abc,10000 ,zxcv,2000 , , , 4,xyz,50000 我想输出，如： 1,abc,10000 zxcv,2000 4,xyz,50000 我怎样才能实现这个任务？即我想删除空行和null值。