我是hadoop的新手。我有包含文件的多个文件夹来处理hadoop中的数据。我怀疑要在map-reducer算法中实现mapper。我可以指定多个映射器来处理多个文件,并将所有输入文件作为一个输出使用一个reducer吗?如果可能的话,请为实施上述步骤提供指导。在hadoop中实现多个mapper和单个reducer
0
A
回答
1
如果您有多个文件,使用MultipleInputs
addInputPath()方法可用于:
- 添加多个路径和一个共同的映射器实现
- 添加自定义映射器和输入多路格式实现。
对于具有单个缩减器,让每个映射的输出键相同...说1或“abc”。这样,框架将只创建一个reducer。
0
如果要以相同的方式映射文件(例如,它们都具有相同的格式和处理要求),那么您可以配置一个映射器来处理所有这些文件。
您可以通过配置的TextInputFormat类做到这一点:
string folder1 = "file:///home/chrisgerken/blah/blah/folder1";
string folder2 = "file:///home/chrisgerken/blah/blah/folder2";
string folder3 = "file:///home/chrisgerken/blah/blah/folder3";
TextInputFormat.setInputPaths(job, new Path(folder1), new Path(folder2), new Path(folder3));
这将导致所有的文件夹1,2和3的文件映射器正在处理中。
当然,如果您需要使用不同的输入类型,则必须适当地配置该类型。
相关问题
- 1. Hadoop中的Mapper和Reducer
- 2. 如何在Hadoop 1.0.4中链接mapper/reducer?
- 3. Hadoop Mapper中Mapper/Reducer的设置和清理方法MapReduce
- 4. 如何在Scala 2.9.0中实现Hadoop Mapper?
- 5. 是一个tasktracker对应hadoop中的mapper还是reducer?
- 6. 如何在Hadoop的Mapper和Reducer中提供子类?
- 7. Mapper和Reducer是Hadoop版本2中的接口?
- 8. 默认/找到hadoop 1.x中的mapper和reducer的数量
- 9. xyz场景需要多少mapper和reducer?
- 10. 单个hadoop Mapper对象用于map()的多个调用吗?
- 11. 如何在Mapper和Reducer类中共享一个变量?
- 12. 在Mapper或Reducer中处理异常的Hadoop最佳实践是什么?
- 13. 是否可以将属性从mapper传递给hadoop中的reducer?
- 14. hadoop mapper阅读多行
- 15. 在Python中使用CountVectorizer Mapper Reducer
- 16. 在Mapper类中执行Reducer操作
- 17. Mapper和Reducer类是否需要部署在Hadoop集群的所有节点上
- 18. 如何从mapper或reducer外部增加hadoop计数器?
- 19. 使用Java Mapper/Reducer进行Hadoop流式处理
- 20. Mapper和Reducer应该是内部类吗?
- 21. 知道mapper和reducer的用法
- 22. Hadoop Streaming和多个Reducer步骤在每个步骤之间没有映射器
- 23. Hadoop - 在Reducer中排序
- 24. 使用多个reducer时,Hadoop中的键/值对如何分布?
- 25. Hadoop:使用什么来代替已弃用的接口Mapper和Reducer?
- 26. Hadoop - 使用Java将reducer输出合并到单个文件中
- 27. 多个reducer如何在Hadoop中只输出一个部分文件?
- 28. 在单个reducer中写入多个HCatalog架构?
- 29. Hadoop Mapper类中的参数
- 30. Hadoop的Mapper对象是否跨多个线程共享?