2016-06-19 52 views
0

我发现Apache spark对于相同查询和火花数据帧上的相同表查询,要比MySQL服务器慢得多。MySQL比查询优化和总体效率更高效MySQL火花

那么,哪里会更有效的火花,然后MySQL呢?

注意:在一个有100万行的表格上试过所有10列类型的文本。

表的JSON大小约为10GB

使用至强16核和64GB的RAM和同一台服务器的MySQL独立pyspark笔记本

一般来说,我想知道在什么时候使用指南根据目标数据的大小,SPARK与SQL服务器通过分析查询获得真正快速的结果。

+4

您是否使用MySQL表中的TB数据尝试它? –

+1

您提到了RDD,但我希望您知道,除非使用DataSet或DataFrame,否则不会有任何实质性的优化。 –

+0

这里有太多的变数。 –

回答

1

好的,所以即使在不知情的情况下回答这个问题仍然很难回答,所以会尽力帮助。假设没有争用资源,这里有很多事情要做。如果你在纱线上运行,并且你的json被存储在hdfs中。它很可能分成许多块,然后这些块在不同的分区中处理。由于json分裂得不好,你会失去很多并行功能。另外,spark并不意味着真正拥有像调优rdbms这样的超低延迟查询。大量数据处理(TB或PB)会导致数据处理繁琐,您从哪里受益。如果您正在寻找低延迟查询,您应该使用Impala或Hive with Tez。您还应该考虑将文件格式更改为avro,parquet或ORC。

+0

实际上我用paraquet – stackit