在一个火花壳我用下面的代码从csv文件会在每个动作中触发从外部源读取数据帧吗?
val df = spark.read.format("org.apache.spark.csv").option("header", "true").option("mode", "DROPMALFORMED").csv("/opt/person.csv") //spark here is the spark session
df.show()
假设这显示10行读取。如果我通过编辑在csv中添加新行,是否会拨打df.show()
再次显示新行?如果是这样,是否意味着数据帧从每个操作的外部源(本例中为csv文件)读取?
注意,我不缓存数据帧,也没有我使用的火花会议
我没有按照你最后的说法。如果内存可用(即使未调用cache()或persist()时也不会尝试将rdd保留在内存中)?正确的文档链接将详细解释这种行为是什么? –