2014-01-23 97 views
1

我想在一个Job中使用多种输入格式。我已经使用org.apache.hadoop.mapreduce.lib.input.MultipleInputs,但是这个实用程序似乎只针对HDFS上存在的输入(有一个路径)。Hadoop MapReduce多输入

有没有办法使用不同来源的多种输入格式?

我的具体需求如下...

我想有一个执行减少副作用的单一工作从以往的弹性搜索索引加入(利用由https://github.com/elasticsearch/elasticsearch-hadoop提供的ESInputFormat)与一组序列包含要编入索引的信息的文件。我想从这些多输入读取合并到reduce阶段,并插入到另一个索引(带有一些额外的逻辑)供以后使用。

对此提出建议?

回答

0

您仍然可以使用MultipleInputs并传入非空路径。它不需要指向一个有效的位置来继续工作,它不能为空。

这是可以的我想。