2017-07-18 81 views
3

我们有来自kafka的spark流在HDFS服务器中创建检查点,并且没有清理干净,现在我们在HDFS中有数百万个检查点。有没有办法从火花自动清理它?Spark Streaming清理RDD检查点目录

星火1.6版 HDFS 2.70

There are other random directories other than checkpoints which is not been cleared

回答

2
val conf = new SparkConf().set("spark.cleaner.referenceTracking.cleanCheckpoints", "true") 

清洗不应该对所有检查点自动完成,就必须围绕让他们跨过火花invocations.As星火流节省了中间状态的数据集作为检查点并依靠它们从驱动器故障中恢复。

+0

谢谢,但我看到除检查点以外的随机数据,它没有清除它,你有什么想法是什么?在上述问题中添加了一个图像 – Sads

+0

实际上,即使您设置了'--conf spark.cleaner.referenceTracking.cleanCheckpoints = True',火花作业的最后一个检查点也不会被清除。 – asmaier