出于比较的目的,假设我们有一个包含两列“A”,“B”的表“T”。我们在一些HDFS数据库中也有一个hiveContext。我们做一个数据帧:Spark DataFrame vs sqlContext
从理论上讲,它下面的更快:
sqlContext.sql("SELECT A,SUM(B) FROM T GROUP BY A")
或
df.groupBy("A").sum("B")
其中“东风”是指T.对于这些简单的各式一个数据帧的总体操作,是否有什么理由为什么一个人应该比另一个更喜欢一种方法?