0

我们有一个Spark版本2.0的MapR群集 我们试图测量当前在TEZ引擎上运行的Hive查询的性能差异,然后在Spark-sql上运行它,只需编写在.hql文件中查询sql查询,然后通过shell文件调用它。Spark数据集或数据框聚合

查询中包含很多Join,这些Join肯定会创建多个阶段,并且在这种情况下将会发生混洗,那么最合适的选择是什么?

这是真的,数据集,星火比Dataframes较慢像GROUPBY,最大值,最小值,count..etc进行聚合..

所以什么都区Dataframes表现比数据集更好,反之亦然.. ?

回答