1
我们已经流应用具有计数动作星火:如何加快rdd.count()
tempRequestsWithState is a DStream
tempRequestsWithState.foreachRDD { rdd =>
print (rdd.count())
}
计数行动采取了大量的时间和慢需要大约30分钟将不胜感激,如果任何人可以建议的方式,因为我们正在消耗@10,000个事件用来加快这个动作/秒也注意到我们有54个分区,每个RDD
进入这里
你可以使用'rdd.countApprox'并确保你的'RDD'的划分是合理的 –
@RaphaelRoth你能否提供关于rdd.countApprox的更多细节我知道它的语法是countApprox(timeout = 800,confidence = 0.5 )超时代表什么,信心是什么意思? – user2359997
你为什么转发这个? http://stackoverflow.com/questions/42639455/spark-how-to-speed-up-rdd-count –