2012-11-01 47 views
0

我有一个用例可以同时运行多个作业。所有作业的输出将不得不与HDFS中的公共主文件(包含键值对)合并,这些文件没有重复。我不确定如何避免在这种情况下可能出现的竞争状况。作为例子,作业1和作业2同时向主文件写入相同的值,导致重复。感谢您的帮助。同步hadoop中的多个地图减少作业

回答

1

Apache Hadoop不支持并行写入同一个文件。这里是reference

HDFS中的文件是一次写入的,并且在任何时候都严格限定一个写入者。

因此,多个地图/作业无法同时写入同一个文件。必须编写另一个作业/ shell或任何其他程序来合并多个作业的输出。

+0

Praveen,我想使用追加功能。让我知道你的想法。 –

+0

如何将追加工作与多个作家,它不会。 –