2016-11-05 121 views
-1

需要帮助编写脚本猪计数无:在阿帕奇猪节目

文件,其中包含下面的文本

What|is|Hadoop 
History|of|Hadoop 
How|Hadoop|name|was|given 
Problems|with|Traditional|Large-Scale|Systems|and|Need|for|Hadoop 
Understanding|Hadoop|Architecture 
Fundamental|of|HDFS|(Blocks,|Name|Node,|Data|Node,|Secondary|Name|Node) 
Rack|Awareness 
Read/Write|from|HDFS 
HDFS|Federation|and|High|Availability 

回答

0

将数据加载到一个chararray.Replace词的“|”与空间,即“”和记号化,这将给你的话,然后组和算的话

A = LOAD '/user/hadoop/data.txt' AS (line:chararray); 
B = FOREACH A GENERATE FLATTEN(TOKENIZE(REPLACE(line,'\\|',' '))); 
C = GROUP B BY $0; 
D = FOREACH C GENERATE group, COUNT(B); 
DUMP D; 

输出

enter image description here

+0

从上面的代码我得到一个输出线字母。我想显示单词,然后数一数。输出看起来像这样:(W) (H) 的(a) (吨) (|) (ⅰ) (S) (|) (H) 的(a) (d) ( o) (o) (p)...我想以下面的方式显示输出(什么),(hadoop)..可以帮助你 – Naveen