我知道在Hadoop中,大输入文件分割成小文件,并通过映射函数在不同节点中处理。我也知道我们可以定制InputSplit
。我想知道的是,如果InputSplit
可以进行以下类型的自定义:Hadoop中的输入分割定制
我有一个大的输入文件进入Hadoop,我想要一个文件的子集,即文件中的一组行跟随每个输入分割。我的意思是大文件的所有数据块都应该包含这些行,不管文件分裂的方式如何。
为了使我的问题更加清晰,东西一样,如果我们需要比较与该文件内容的其余部分输入文件的一部分(比如A
),在这种情况下,所有InputSplit
S中的要去map
功能需求有这A
部分与它进行比较。 请在此引导我。
这与OP有关输入分割和文件开始处常见数据的问题有何关系? – harpun 2013-05-02 15:27:33
我不确定OP的MR系统知识。想象一下,根据OP – 2013-05-03 00:56:37
的任何反馈,我们将开始真正的基础并从那里开始构建。感谢以示例形式给出的解释MR。但是,我一直在寻找有关harpun提供了概述的InputSplit问题。 – 2013-05-03 03:00:17