2012-10-25 32 views
0

我正在使用Microsoft的azure上的hadoop来运行一些mapreduce作业。 我已将dfs.block.size设置为16777216(即16MB),并将mapred.max.split.size设置为16MB。 我也将每个任务跟踪器中的地图任务数设置为16,方法是转到每个任务跟踪器。 (这是一个3 + 1节点群集)。 我也尝试使用-D选项设置mapred.map.tasks属性。 但是这些努力都没有成功地增加地图任务的数量,令人惊讶的是仍然有1个。无法设置azure上的hadoop映射器的数量

任何建议吗? 在此先感谢..

编辑:输入大小(以GBS)

+0

任何线索?任何人? – Harsh

+0

您使用的是可拆分的输入数据吗?如需快速检查,请尝试通过提供所需数量的地图任务来运行“Teragen”作业,如下所述:http://blogs.msdn.com/b/avkashchauhan/archive/2011/12/30/apache-hadoop- on-windows-azure-part-5-running-10gb-sort-hadoop-job-with-teragen-terasort-and-teravalidate-options.aspx。 –

+0

输入文件gzipped(gz文件)?是否只有一个输入文件?如果是,则如上面所述的Lorand所述,它不会被分割,并且总是会被一个映射器拾取。 – Amar

回答

0

检查巨大,该文件不被压缩。

0

也许你的设置不起作用。

您可以检查作业配置页上的运行时作业配置,hadoop作业配置页面为http://<host>:<port>/jobconf.jsp?jobid=<jobid>