1
我想在一个Job中使用多种输入格式。我已经使用org.apache.hadoop.mapreduce.lib.input.MultipleInputs,但是这个实用程序似乎只针对HDFS上存在的输入(有一个路径)。Hadoop MapReduce多输入
有没有办法使用不同来源的多种输入格式?
我的具体需求如下...
我想有一个执行减少副作用的单一工作从以往的弹性搜索索引加入(利用由https://github.com/elasticsearch/elasticsearch-hadoop提供的ESInputFormat)与一组序列包含要编入索引的信息的文件。我想从这些多输入读取合并到reduce阶段,并插入到另一个索引(带有一些额外的逻辑)供以后使用。
对此提出建议?