2014-02-17 21 views
1

我有一份特殊的猪工作,通常需要12分钟左右的时间才能运行,但每天有几次它会陷入奇怪的状态。这项工作有6张地图和1个减少任务。它成功地完成了第一个地图任务,然后它保持“搁置”几个小时(永远!)。作业跟踪器显示有5张地图,1个正在等待,但没有任何任务正在运行。没有任务显示任何错误。地图任务不会启动,但不会发生错误。为什么挂起的地图任务不能启动?

我怎样才能弄清楚为什么这些任务不能启动?

我已经尝试过增加工作优先级,并且我已验证有可用的地图和减少插槽。运行的一张地图的任务日志看起来完全正常。有没有其他的日志可以告诉我发生了什么?

我使用Cloudera CDH4.5和MR1。小群集有5个节点。

+0

只是为了确定...是否有组合器? – vefthym

+0

根据猪的日志没有组合器。 – Marquez

回答

1

查看第一个地图任务的日志 - 它可能已失败。我遇到了许多第一个地图任务失败的情况,但据报告是成功的,而后来的任何地图任务都没有开始。

+0

运行的一个地图显示了正向地图输入和输出记录计数。底部的任务日志表示“启动地图输出刷新”,“已完成,正在进行提交”和“已完成任务”。我在整个地图任务日志中找不到任何异常或错误。它看起来像一个成功的地图任务。 – Marquez

+0

我有同样的问题(当我的表格导出到S3时)。我发现基于这个问题的解决方案:https://stackoverflow.com/questions/24747427/hadoop-yarn-job-is-getting-stucked-at-map-0-and-reduce-0我已经评论了内存配置mapred-site.xml和yarn-site.xml并重新启动我的主站(单节点)。 – sebge2