在YARN模式下的Spark作业失败

我有一个用Scala编写的Spark程序，它从HDFS读取一个CSV文件，计算一个新列并将其保存为一个parquet文件。我正在YARN集群中运行程序。但是，每次我尝试启动它时，执行者都会在某个时刻出现此错误。在YARN模式下的Spark作业失败

你能帮我找到可能导致这个错误的原因吗？

从执行日志

16/10/27 15:58:10 WARN storage.BlockManager: Putting block rdd_12_225 failed due to an exception 
16/10/27 15:58:10 WARN storage.BlockManager: Block rdd_12_225 could not be removed as it was not found on disk or in memory 
16/10/27 15:58:10 ERROR executor.Executor: Exception in task 225.0 in stage 4.0 (TID 465) 
java.io.IOException: Stream is corrupted 
    at org.apache.spark.io.LZ4BlockInputStream.refill(LZ4BlockInputStream.java:211) 
    at org.apache.spark.io.LZ4BlockInputStream.read(LZ4BlockInputStream.java:125) 
    at java.io.BufferedInputStream.fill(BufferedInputStream.java:246) 
    at java.io.BufferedInputStream.read(BufferedInputStream.java:265) 
    at java.io.DataInputStream.readInt(DataInputStream.java:387) 
    at org.apache.spark.sql.execution.UnsafeRowSerializerInstance$$anon$3$$anon$1.readSize(UnsafeRowSerializer.scala:113) 
    at org.apache.spark.sql.execution.UnsafeRowSerializerInstance$$anon$3$$anon$1.<init>(UnsafeRowSerializer.scala:120) 
    at org.apache.spark.sql.execution.UnsafeRowSerializerInstance$$anon$3.asKeyValueIterator(UnsafeRowSerializer.scala:110) 
    at org.apache.spark.shuffle.BlockStoreShuffleReader$$anonfun$3.apply(BlockStoreShuffleReader.scala:66) 
    at org.apache.spark.shuffle.BlockStoreShuffleReader$$anonfun$3.apply(BlockStoreShuffleReader.scala:62) 
    at scala.collection.Iterator$$anon$12.nextCur(Iterator.scala:434) 
    at scala.collection.Iterator$$anon$12.hasNext(Iterator.scala:440) 
    at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408) 
    at org.apache.spark.util.CompletionIterator.hasNext(CompletionIterator.scala:32) 
    at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:39) 
    at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408) 
    at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIterator.processNext(Unknown Source) 
    at org.apache.spark.sql.execution.BufferedRowIterator.hasNext(BufferedRowIterator.java:43) 
    at org.apache.spark.sql.execution.WholeStageCodegenExec$$anonfun$8$$anon$1.hasNext(WholeStageCodegenExec.scala:370) 
    at org.apache.spark.sql.execution.columnar.InMemoryRelation$$anonfun$3$$anon$1.next(InMemoryRelation.scala:118) 
    at org.apache.spark.sql.execution.columnar.InMemoryRelation$$anonfun$3$$anon$1.next(InMemoryRelation.scala:110) 
    at org.apache.spark.storage.memory.MemoryStore.putIteratorAsValues(MemoryStore.scala:214) 
    at org.apache.spark.storage.BlockManager$$anonfun$doPutIterator$1.apply(BlockManager.scala:935) 
    at org.apache.spark.storage.BlockManager$$anonfun$doPutIterator$1.apply(BlockManager.scala:926) 
    at org.apache.spark.storage.BlockManager.doPut(BlockManager.scala:866) 
    at org.apache.spark.storage.BlockManager.doPutIterator(BlockManager.scala:926) 
    at org.apache.spark.storage.BlockManager.getOrElseUpdate(BlockManager.scala:670) 
    at org.apache.spark.rdd.RDD.getOrCompute(RDD.scala:330) 
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:281) 
    at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38) 
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:319) 
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:283) 
    at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38) 
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:319) 
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:283) 
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:79) 
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:47) 
    at org.apache.spark.scheduler.Task.run(Task.scala:86) 
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:274) 
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) 
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) 
    at java.lang.Thread.run(Thread.java:745) 
Caused by: net.jpountz.lz4.LZ4Exception: Error decoding offset 15385 of input buffer 
    at net.jpountz.lz4.LZ4JNIFastDecompressor.decompress(LZ4JNIFastDecompressor.java:39) 
    at org.apache.spark.io.LZ4BlockInputStream.refill(LZ4BlockInputStream.java:205) 
    ... 41 more

编辑：

有代码中使用

var df = spark.read.option("header", "true").option("inferSchema", "true").option("treatEmptyValuesAsNulls", "true").csv(hdfsFileURLIn).repartition(nPartitions) 
df.printSchema() 
df = df.withColumn("ipix", a2p(df.col(deName), df.col(raName))).persist(StorageLevel.MEMORY_AND_DISK) 
df.repartition(nPartitions, $"ipix").write.mode("overwrite").option("spark.hadoop.dfs.replication", 1).parquet(hdfsFileURLOut)

用户功能A2P只是以两个双和返回等双

我需要说的是，这对于较小的CSV（〜1Go）效果很好，但是是错误的每台次大的人（〜15Go）发生

编辑2：继建议我禁用了重新分区，我用StorageLevel.DISK_ONLY

有了这个，我没有得到会将块RDD _ ** ***失败，原因是一个例外，但仍然存在与LZ4异常（流已损坏）：

16/10/28 07:53:00 ERROR util.Utils: Aborting task 
java.io.IOException: Stream is corrupted 
    at org.apache.spark.io.LZ4BlockInputStream.refill(LZ4BlockInputStream.java:211) 
    at org.apache.spark.io.LZ4BlockInputStream.available(LZ4BlockInputStream.java:109) 
    at java.io.BufferedInputStream.read(BufferedInputStream.java:353) 
    at java.io.DataInputStream.read(DataInputStream.java:149) 
    at org.spark_project.guava.io.ByteStreams.read(ByteStreams.java:899) 
    at org.spark_project.guava.io.ByteStreams.readFully(ByteStreams.java:733) 
    at org.apache.spark.sql.execution.UnsafeRowSerializerInstance$$anon$3$$anon$1.next(UnsafeRowSerializer.scala:127) 
    at org.apache.spark.sql.execution.UnsafeRowSerializerInstance$$anon$3$$anon$1.next(UnsafeRowSerializer.scala:110) 
    at scala.collection.Iterator$$anon$12.next(Iterator.scala:444) 
    at scala.collection.Iterator$$anon$11.next(Iterator.scala:409) 
    at org.apache.spark.util.CompletionIterator.next(CompletionIterator.scala:30) 
    at org.apache.spark.InterruptibleIterator.next(InterruptibleIterator.scala:43) 
    at scala.collection.Iterator$$anon$11.next(Iterator.scala:409) 
    at org.apache.spark.sql.execution.datasources.DefaultWriterContainer$$anonfun$writeRows$1.apply$mcV$sp(WriterContainer.scala:254) 
    at org.apache.spark.sql.execution.datasources.DefaultWriterContainer$$anonfun$writeRows$1.apply(WriterContainer.scala:252) 
    at org.apache.spark.sql.execution.datasources.DefaultWriterContainer$$anonfun$writeRows$1.apply(WriterContainer.scala:252) 
    at org.apache.spark.util.Utils$.tryWithSafeFinallyAndFailureCallbacks(Utils.scala:1345) 
    at org.apache.spark.sql.execution.datasources.DefaultWriterContainer.writeRows(WriterContainer.scala:258) 
    at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand$$anonfun$run$1$$anonfun$apply$mcV$sp$1.apply(InsertIntoHadoopFsRelationCommand.scala:143) 
    at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand$$anonfun$run$1$$anonfun$apply$mcV$sp$1.apply(InsertIntoHadoopFsRelationCommand.scala:143) 
    at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:70) 
    at org.apache.spark.scheduler.Task.run(Task.scala:86) 
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:274) 
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) 
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) 
    at java.lang.Thread.run(Thread.java:745) 
Caused by: net.jpountz.lz4.LZ4Exception: Error decoding offset 12966 of input buffer 
    at net.jpountz.lz4.LZ4JNIFastDecompressor.decompress(LZ4JNIFastDecompressor.java:39) 
    at org.apache.spark.io.LZ4BlockInputStream.refill(LZ4BlockInputStream.java:205) 
    ... 25 more

编辑3：我设法还去除第二再分配启动它没有任何错误（一使用列ipix重新分区）我会看看这个方法的文档

编辑4：这是奇怪的，偶尔有些执行人失败分段故障：

# 
# A fatal error has been detected by the Java Runtime Environment: 
# 
# SIGSEGV (0xb) at pc=0x00007f48d8a47f2c, pid=3501, tid=0x00007f48cc60c700 
# 
# JRE version: Java(TM) SE Runtime Environment (8.0_102-b14) (build 1.8.0_102-b14) 
# Java VM: Java HotSpot(TM) 64-Bit Server VM (25.102-b14 mixed mode linux-amd64 compressed oops) 
# Problematic frame: 
# J 4713 C2 org.apache.spark.unsafe.types.UTF8String.hashCode()I (18 bytes) @ 0x00007f48d8a47f2c [0x00007f48d8a47e60+0xcc] 
# 
# Core dump written. Default location: /tmp/hadoop-root/nm-local-dir/usercache/root/appcache/application_1477580152295_0008/container_1477580152295_0008_01_000006/core or core.3501 
# 
# An error report file with more information is saved as: 
# /tmp/hadoop-root/nm-local-dir/usercache/root/appcache/application_1477580152295_0008/container_1477580152295_0008_01_000006/hs_err_pid3501.log 
# 
# If you would like to submit a bug report, please visit: 
# http://bugreport.java.com/bugreport/crash.jsp 
#

我检查了内存和我所有的执行者总是有足够的空闲内存（至少6Go）

编辑4：所以我测试了多个文件，并执行总是成功，但有时执行人失败（与上述错误），并再次启动YARN

来源

2016-10-27 Paul Trehiou

加入您的代码，了解更多.. – Shankar

@Shankar done。 –

你尝试没有重新分配？只是一个猜测.. – Shankar

你正在使用哪个版本的lz4-java？这可能与版本1.1.2中已修复的问题有关 - 请参阅此bug report

另外，我对您的函数a2p很好奇。理想情况下，应该将两个Column对象作为输入，而不仅仅是双精度（除非将其注册为UDF）。

来源

2016-10-27 18:26:55 ShirishT

是的，我用udf注册了它。编辑：我怎么知道LZ4的版本？ –

您应该能够找到它，例如，在jar清单文件或您的项目的依赖 – ShirishT

我有1.3。0 –

进入相同的问题。

症状看起来完全是这样的problem: SPARK-18105。

截止到2017年1月29日，它尚未确定。

来源

2017-01-30 02:46:24 Tagar

在YARN模式下的Spark作业失败

回答

相关问题