使用union
构建一个适当的大型测试数据集,与Spark徘徊在一起。该工程确定:我可以递归地将变换应用于scala中的Spark数据框吗?
val df = spark.read.json("/opt/spark/examples/src/main/resources/people.json") df.union(df).union(df).count()
但我想要做这样的事情: val df = spark.read.json("/opt/spark/examples/src/main/resources/people.json") for (a <- 1 until 10){ df = df.union(df) }
与错误barfs <console>:27: error: reassignment to val df = df.union(df) ^
我知道这个技术会工作使用python,但使用Scala的,所以我是我的第一次我不确定语法。
我怎样才能递归地联合自己的数据帧n次?