我以独立模式运行Spark。它读取几个文件作为RDD
,处理它们,将结果合并到单个数据帧中,并将数据帧保存到本地磁盘中的parquet文件中。抑制Spark实验中的日志记录
df.write.mode(SaveMode.Overwrite).parquet(output)
该过程产生有噪声的输出。我有记录的30GB的(我的输出拼花文件小于10倍!),主要是在这个喜欢格式:
root
|-- column1: string (nullable = true)
|-- column2: string (nullable = true)
|-- column3: string (nullable = true)
|-- column4: string (nullable = true)
|-- column5: string (nullable = true)
我怎样才能抑制输出?
我已经试过标准压制技巧,他们都没有帮助。
sc.setLogLevel("FATAL")
和
Logger.getLogger("org").setLevel(Level.OFF)
Logger.getLogger("akka").setLevel(Level.OFF)
我试过这种方法和@Denis方法 - 这些都不起作用。我看到日志记录设置已更改(某些日志被压制),但我仍然有很多类似于模式的消息“root | - column1:string ...”。 –
@DmitryPetrov尝试将'log4j.properties'添加到'$ SPARK_HOME/conf'目录中。重新启动火花服务器并报告结果。 – javadba
它没有帮助。我仍然有巨大的输出与模式:( –