回答
正如我所知,无效数据可能被忽略MapReduce
,至少,你可以实现自己的map
做到这一点。
例如,分隔符是\n
,应该接受指定格式的每一行,否则将被忽略。在这种情况下,每行包含6个由空格分隔的列应该被正常处理。
//map @Override public void map(K key, V value, Context context) throws IOException, InterruptedException { // value contains line content, // verify value, only those valid lines should be accepted. }
谢谢基思为你提供帮助。基思地图减少将一如既往的最佳选择,但我想减少太多的编码的东西,并希望实施在猪边。如果你在猪分享你的想法,那么它也会gd :) –
恐怕你是对的。如果我已经知道PIG是什么,我会建议你使用PIG。 PIG在处理这个问题上更专业,更方便。但是,我仍然对PIG很陌生,我会更多地了解它。快乐的旅程。 –
你可以使用RANK猪来过滤头。尝试这个。
A = LOAD 'file' as (line:chararray);
B = RANK A;
C = FILTER B BY rank_A > 5;
D = FOREACH C GENERATE line;
DUMP D;
谢谢Vignesh,我试过它正在工作,但如果情况如下below.Please检查我下面的帖子,因为我不能发表评论。 –
- 1. Pig如何处理非结构化数据,而Hive不能?
- 2. Spark处理非结构化文件
- 3. 处理非结构化大XML文件
- 4. 非结构化文本结构化数据
- 5. 使用Hadoop将非结构化数据转换为结构化数据
- 6. Hadoop和结构化数据
- 7. 在hadoop中处理非结构化和多行的CSV
- 8. 文本匹配 - 非结构化数据到结构化数据 - SAS或R
- 9. 如何分析非结构化文本?
- 10. 处理非结构化医疗的工具/方式文本数据为CSV
- 11. 结构化和非结构化数据如何区分?
- 12. 如何将此非结构化数据转换为结构化?
- 13. 结构化文本和非结构化文本
- 14. SSIS处理半结构化数据源
- 15. Redis - 处理数据结构的变化
- 16. 结构化,非结构化和半结构化数据
- 17. 非结构化文本/数字合并
- 18. 使用java将非结构化数据(文本)转换为结构化格式
- 19. 将非结构化数据转换为结构化数据?
- 20. 结构化和非结构化数据集成与大规模数据处理引擎
- 21. 如何格式化非结构化文本文件?
- 22. 什么数据库对非结构化数据有好处
- 23. 如何处理结构化海量数据集?
- 24. 如何处理字段的数据结构随时间变化?
- 25. 构造非结构化数据
- 26. 通读非结构化xls文件
- 27. 解析结构化和非结构化文本的混合
- 28. 非结构化数据如何实现数据挖掘?
- 29. 社交媒体数据如何非结构化数据?
- 30. 通过java处理文本
请复制粘贴,不要使用截图。这包括你写的Pig代码 –