0
假设我有10个输入文件,每个文件大小为几GB,我试图将它们读入RDD并执行映射/缩减操作。在执行操作之前,Spark必须读取所有输入文件吗?
显然,reduce
阶段将不得不等待所有10个文件完全加载。但map
阶段可以更快开始吗?
换句话说,Spark是否会逐个创建每个分区,然后立即开始对该分区的数据运行map
操作......还是等待所有数据完全从所有10个文件中加载完毕,然后才启动在所有分区上同时运行map
?