apache-pig

    0热度

    1回答

    我是一个拉丁猪新手。我想处理下面的文件,并计算最多发生的词。 Hadoop | is | an | open | source |基于Java |编程|框架| that |支持| |处理| |存储|非常|大|数据|集|在| a |分布式|计算|环境。 该文件包含一个|作为分隔符。

    1热度

    1回答

    在Apache Pig(版本0.16.x)中,通过某个数据集字段的现有值列表筛选数据集的最有效方法是什么? 例如, 输入(每@ inquisitive_mind的尖端已更新):一个线分隔文件每行一个值 my_codes.txt '110' '100' '000' sample_data.txt '110', 2 '110', 3 '001', 3 '000', 1 所需输出 '1

    0热度

    1回答

    嘿我试图过滤以下输入: Id Num 102369 100 623589 200 102369 300 103333 300 103333 100 ... 预计输出关系应该会减少,仅包括所有ID - 为Id和Num == 300之间存在的关系Num关系: Id Num 102369 100 102369 300 103333 300 103333 100 我已经尝试

    0热度

    1回答

    我得到了我的分组按部门no.The步骤遵循的数据后卡住 grunt> A = load '/home/cloudera/naveen1/hive_data/emp_data.txt' using PigStorage(',') as (eno:int,ename:chararray,job:chararray,sal:float,comm:float,dno:int); grunt> B = g

    0热度

    1回答

    我编译Apache猪0.16在HBase的1.2.5如下: ant jar -Dhadoopversion=23 -Dhbase95.version=1.2.5 现在我想运行猪代码如下: A = LOAD 'test.csv' USING PigStorage('\t') as (id:chararray,note:chararray); STORE A into 'hbase://tes

    0热度

    1回答

    我想将一个xlsx文件加载到猪关系中。该文件可以包含带有“,”的数据作为数据的一部分。所以我不能将其转换为CSV并加载它。所以我试图把xlsx文件加载到一个pig关系中,并将其用于进一步处理。 但我不确定如何将xlsx文件加载到pig关系中。我尝试了几个选项,如下所示,但没有成功。当我转储数据时,它不会提供任何可读的输出。在XLSX文件 的样本数据 ColumnA ColumnB ColumnC

    0热度

    1回答

    下面是输入数据集。 col1,col2,col3,col4,col5 key1,111,1,12/11/2016,10 key2,111,1,12/11/2016,10 key3,111,1,12/11/2016,10 key4,222,2,12/22/2016,10 key5,222,2,12/22/2016,10 key6,333,3,12/30/2016,10 key7,11

    0热度

    1回答

    应该是什么下面的SQL查询的猪等同脚本: SELECT fld1, fld2, fld3, SUM(fld4) FROM Table1 GROUP BY fld1, fld2, fld3; 对于表1: A B C 2 X Y Z A B C 3 X Y Z A B D 2 X Y Z A C D 2 X Y Z A C D 2 X Y Z A C D 2 X Y Z OUTP

    0热度

    1回答

    我是一个初学者在猪,并试图了解元组数据类型,我有如下文件: cat student.csv id,name,grade,contact_details s1234,Mohan,8,(Delhi,9811830) s2345,Nisha,10,(Delhi,257891) s3456,Anuj,12,(Delhi,9897212) s4567,vishal,14,(Delhi,98917

    0热度

    1回答

    我想通过猪得到数据。有>文件中的8K领域,我想选择前10条记录每列: 目前,我只是加载整个表和拼写出来的变量名,有一个相当于SQL的 select * from TABLE LIMIT 10; 在猪? 电流负载 data = load 'xsf://EXAMPLE/1' using SomePigLoader('2017-01-01','2017-01-03','ID1,ID2,ID3....')