2016-04-17 30 views

回答

0

正如我所知,无效数据可能被忽略MapReduce,至少,你可以实现自己的map做到这一点。

例如,分隔符是\n,应该接受指定格式的每一行,否则将被忽略。在这种情况下,每行包含6个由空格分隔的列应该被正常处理。

//map @Override public void map(K key, V value, Context context) throws IOException, InterruptedException { // value contains line content, // verify value, only those valid lines should be accepted. }

+0

谢谢基思为你提供帮助。基思地图减少将一如既往的最佳选择,但我想减少太多的编码的东西,并希望实施在猪边。如果你在猪分享你的想法,那么它也会gd :) –

+0

恐怕你是对的。如果我已经知道PIG是什么,我会建议你使用PIG。 PIG在处理这个问题上更专业,更方便。但是,我仍然对PIG很陌生,我会更多地了解它。快乐的旅程。 –

0

你可以使用RANK猪来过滤头。尝试这个。

A = LOAD 'file' as (line:chararray); 
B = RANK A; 
C = FILTER B BY rank_A > 5; 
D = FOREACH C GENERATE line; 
DUMP D; 
+0

谢谢Vignesh,我试过它正在工作,但如果情况如下below.Please检查我下面的帖子,因为我不能发表评论。 –