1
我们有很多日志,我们希望通过一些处理获取有意义的数据。这些日志文件非常庞大,结果也很大。pyspark rdd有没有分页?
我们已经建立了火花转换来完成spark集群中所需的工作。 经过所有不适合驱动程序内存的转换后,我有大量数据。因此,做一个rdd.collect()失败。
是否有任何分页在rdd中我们可以使用哪种动作? 有些东西像SQL中的限制。“SELECT * FROM table LIMIT 15,10”
或任何建议如何处理这种情况?
如果结果如此之大,我只会将它写入磁盘,最简单的一个csv文件(只是谷歌它)。但也许我错过了一些东西。干杯。 – lrnzcig