假设我们从alluxio内存对RDD在alluxio转型内存使用/超光速粒子的火花
rdd1 = sc.textFile("alluxio://.../file1.txt")
rdd2 = rdd1.map(...)
是否rdd2
驻留在alluxio
或spark
的堆创建RDD。
也可以在alluxio或spark堆上创建一个新的RDD(类似于alluxio上的pairRDD) pairRDD1.join(pairRDD2)
。
第二个问题的原因是我需要在alluxio上加入两个大RDD。连接会使用alluxio的内存还是RDD会被拉入连接的spark内存(以及生成的RDD驻留在哪里)。
- map的输出写入OS BUFFER CACHE。 - 操作系统将决定数据是否可以保留在操作系统缓冲区 缓存中或者是否应该分散到DISK中。 – RoyaumeIX