是否有人可以解释RDD countApprox()与count()之间的差异并且如果可能的话也可以回答哪个是最快的?它会有很大的帮助,我们有一个要求,其中计数()是非常缓慢需要大约30分钟的** ...尝试countApprox()它是**快速的第一次运行(**约1.2分),然后放缓至30分钟的 .....Spark:rdd.countApprox()vs rdd.count()
这是我们如何使用它不知道,如果是使用
rdd.countApprox(timeout=800, confidence=0.5)
仅供参考:超时时间以毫秒 –