FileInputFormat类的isSplittable()方法的意义是什么? http://hadoop.apache.org/docs/r2.2.0/api/index.htmlHDFS的分裂逻辑?
1
A
回答
2
当isSplitable返回false时,只有一个映射器处理整个文件。
您可以提供您自己的FileInputFormat实现,并根据您的需要返回isSplitable的true/false。
0
如果文件是像tar.gz或zip文件一样进行流压缩,并且当您的记录具有可变数量的行时;可能有相同记录的一部分可能落在一个块中,而另一部分记录的其余部分可能落在另一个块中。因此,用于读取记录的程序可能会崩溃。
因此,在这样的情况下,可以将isSplittable()设置为false。
相关问题
- 1. 逻辑分裂这在JavaScript?
- 2. 逻辑与分配
- 3. 2x2分组逻辑
- 4. 分页逻辑 - Oracle
- 5. RDD分区逻辑
- 6. 逻辑和UI的分离
- 7. 分析GXT FileUploadField的逻辑
- 8. 切换分区的逻辑
- 9. 逻辑任务,用小逻辑规则划分的小方格
- 10. 改善表分页逻辑
- 11. 分数计算逻辑
- 12. MySQL查询分组逻辑
- 13. Membase逻辑缓存部分
- 14. 分组逻辑表达式
- 15. 现金分配逻辑 - Java
- 16. 饲料分页PHP逻辑
- 17. 业务逻辑分离
- 18. 分类逻辑回归,库
- 19. 分离业务逻辑
- 20. 搜索逻辑分片
- 21. Eclipse逻辑目录分组
- 22. Python:分裂和分裂
- 23. 布尔逻辑(逻辑门)
- 24. 分离业务逻辑层和安全逻辑层
- 25. PHP:分离业务逻辑和表达逻辑,值得吗?
- 26. 如何分离模型(业务逻辑和商店逻辑)?
- 27. 问题分离,业务逻辑与表示逻辑
- 28. 正确的OOP类逻辑的逻辑
- 29. 散列逻辑内的逻辑
- 30. DotNetZip循环逻辑的逻辑帮助
但是,如果我的文件大小大于块大小:例如:129MB,(最大块大小为128MB);那么即使我将isSplittable()设置为false,该文件也会分成两个块。那么这个函数有什么用呢?另外,当你的意思是说单个Mapper时,你的意思是单机/核心。对? – Sugandha
这里可拆分并不意味着在HDFS存储级别(块大小适用) - 它意味着如何将INPUT分割以将其传递给映射器。 Mapper会得到整个文件(大小无关紧要)。通过单映射器 - 我不是指单机器/核心 - 我的意思是单映射器任务。请参阅:http://wiki.apache.org/hadoop/HadoopMapReduce – Jasper
是的,我知道了。谢谢@Jasper – Sugandha