2013-06-21 60 views

回答

1

您可以从os.environ读取输入文件。例如,

import os 
input_file = os.environ['map_input_file'] 

其实,你也可以从os.environ阅读其他JobConf。注意:在执行流式作业期间,会转换“mapred”参数的名称。点(。)变为下划线(_)。例如,mapred.job.id变成mapred_job_id,而mapred.jar变成mapred_jar。要获取流作业的映射器/缩减器中的值,请使用具有下划线的参数名称。见Configured Parameters

我也为你找到一个非常有用的帖子:A Guide to Python Frameworks for Hadoop