Hadoop输出和流水线写入

几个问题： 1. File_Bytes_Read和HDfs_bytes_read之间有什么区别。 2.当客户端即将写入文件hdfs时，如果在将第一个块传递给第一个Datanode时，假设它是DN1（如果DN1失败），则客户端仍会最终写入或丢失。名称节点在这个阶段如何处理？感谢小号Hadoop输出和流水线写入

来源

2014-03-13 user2345694

我能回答的问题1

File_Bytes_Read：是本地文件系统读取的字节数。假设所有的地图输入数据都来自HDFS，那么在地图阶段它应该是零。另一方面，reducer的输入文件是从map-side磁盘获取的reduce-side本地磁盘上的数据。因此，它表示减速器读取的总字节数。

HDfs_bytes_read：读取的字节数：表示作业启动时映射器从HDFS读取的字节数。这些数据不仅包括源文件的内容，还包括关于分割的元数据。

来源

2014-05-10 16:43:47

Hadoop输出和流水线写入

回答

相关问题