我的Hadoop程序的输入是一组小文件(10个文件,每个大小为60MB),我运行100个映射器。我假设每个映射器的输入数据只来自一个文件。也就是说,没有映射器的输入数据跨越两个(或更多)文件。这是一个正确的假设吗?如何将数据提供给Hadoop中的映射器?
0
A
回答
2
是的。你是对的。您还可以使用CombineFileInputFormat在单个映射器调用中访问来自多个文件的内容。
顺便说一下,您可以查看映射器任务ID,该映射器任务ID由映射器读取的文件名称(以及其他内容)组成。
1
我的Hadoop程序的输入是一组小文件(10个文件,每个大小为60MB),我运行100个映射器。
映射器的总数不能被明确控制。映射器的总数等于块的数量。所以,不知道I run 100 mappers
的意思。
我假设每个映射器的输入数据只来自一个文件。
映射器处理一个数据块,根据数据的大小可以将一个文件分成1或1+个块。
也就是说,没有映射器的输入数据跨越两个(或更多)文件。
通过使用CombineFileInputFormat,一个映射器将能够处理多个文件。
相关问题
- 1. 将参数传递给Hadoop映射器
- 2. 如何将JMX JVM选项传递给Hadoop映射器和Reducer
- 3. 将数据传递给映射器
- 4. Hadoop中的映射器数量
- 5. Hadoop将数据从映射器减少到组合器
- 6. 将数据提供给MySQL
- 7. Hadoop将变量传递给映射器和缩减器
- 8. 在MapReduce中给映射器提供输入
- 9. 自动将asmx提供的xml数据映射到POCO对象
- 10. Hadoop Mapreduce:如何将数据从映射器分区到还原器
- 11. 通过数据提供程序返回映射的迭代器
- 12. Hadoop的许多映射器
- 13. 如何向JDBI映射器提供每行参数?
- 14. 将数据写入Cassandra Hadoop映射器(不减少)
- 15. Hadoop几个映射器
- 16. Tuple作为Hadoop映射器中的键
- 17. 有了Hadoop,如何更改给定作业的映射器数量?
- 18. 没有提供表映射
- 19. 如何将PySide QAbstractItemModel子类中的数据提供给QML ListView?
- 20. 如何将csv映射的bean类传递给数据集
- 21. HADOOP:从映射器发射矩阵
- 22. 休眠 - 如何提供正确的映射到整数类型?
- 23. 映射器输入键值对Hadoop中
- 24. 在序列中运行Hadoop映射器
- 25. 将对象副本传递给hadoop中所有映射器的最佳实践
- 26. 数据映射器查找映射
- 27. 如何为keycloak身份提供者定义映射器?
- 28. 如何根据用于提高性能的实例数量增加hadoop中的映射器和reducers?
- 29. Haskell提供了一种将函数映射到数据成员的方法吗?
- 30. 如何在Hadoop中的映射器之间共享HashMap?