在Java中编写程序时,如果使用FileSplit的映射器类中的输入文件能够找到该名称。在流式传输hadoop程序中获取输入文件名
有没有做到这一点通过相应的方式,当我用Python语言编写程序(使用流?)
我发现在Apache Hadoop的流媒体文件中的以下内容:
查看所配置的参数。在执行流式作业期间, 将转换“mapred”参数的名称。点(。) 变为下划线(_)。例如,mapred.job.id变成 mapred_job_id,而mapred.jar变成mapred_jar。在您的代码中,使用 参数名称和下划线。
但我仍然不能理解如何在我的映射器中使用这个。
任何帮助,高度赞赏。
感谢
看起来像Krishnamutry需要的属性被称为“map.input.file” - 这可能会作为“map_input_file”环境变量显示为流式作业。 –
注意:句点应替换为下划线 –
谢谢 - 更新它。 –