2017-08-21 24 views
1

我一直在使用s3-dist-cp将压缩的JSON文件从S3移动到HDFS作为更大工作的一部分。我从EMR 5.4开始并通过大多数5.x升级,目前我运行的是EMR 5.7的32台机器群,没有任何问题。当我从EMR 5.7升级到EMR 5.8时,s3-dist-cp失败并出现OutOfMemoryException错误5.8

当我试图升级到EMR 5.8时,s3-dist-cp作业失败,如下所示。 5.7和5.8之间有什么变化会导致这种情况?

# 
# java.lang.OutOfMemoryError: Java heap space 
# -XX:OnOutOfMemoryError="kill -9 %p 
kill -9 %p" 
# Executing /bin/sh -c "kill -9 11042 
kill -9 11042"... 
/usr/share/aws/emr/s3-dist-cp/bin/s3-dist-cp: line 55: 11042 Killed     hadoop jar "$S3_DIST_CP_JAR" -libjars "$LIBJARS" "[email protected]" 
Traceback (most recent call last): 
    ... 

回答

1

它可能为时已晚,但肯定的,有关于S3-DIST-CP导致的S3-DIST-CP工作的故障对EMR-5.8.0将在emr-工作,否则错误5.7.0。这个bug可能会导致S3DistCp客户端上的OOM,因为在实际提交MapRed作业之前列出S3对象时,它会消耗更多的内存。它固定在5.9.0。

+0

是的,我最终打开了一个支持案例,他们在下一个EMR版本中修复。 – gae123