MySQL比查询优化和总体效率更高效MySQL火花

我发现Apache spark对于相同查询和火花数据帧上的相同表查询，要比MySQL服务器慢得多。MySQL比查询优化和总体效率更高效MySQL火花

那么，哪里会更有效的火花，然后MySQL呢？

注意：在一个有100万行的表格上试过所有10列类型的文本。

表的JSON大小约为10GB

使用至强16核和64GB的RAM和同一台服务器的MySQL独立pyspark笔记本

一般来说，我想知道在什么时候使用指南根据目标数据的大小，SPARK与SQL服务器通过分析查询获得真正快速的结果。

来源

2016-06-19 stackit

您是否使用MySQL表中的TB数据尝试它？ –

您提到了RDD，但我希望您知道，除非使用DataSet或DataFrame，否则不会有任何实质性的优化。 –

这里有太多的变数。 –

好的，所以即使在不知情的情况下回答这个问题仍然很难回答，所以会尽力帮助。假设没有争用资源，这里有很多事情要做。如果你在纱线上运行，并且你的json被存储在hdfs中。它很可能分成许多块，然后这些块在不同的分区中处理。由于json分裂得不好，你会失去很多并行功能。另外，spark并不意味着真正拥有像调优rdbms这样的超低延迟查询。大量数据处理（TB或PB）会导致数据处理繁琐，您从哪里受益。如果您正在寻找低延迟查询，您应该使用Impala或Hive with Tez。您还应该考虑将文件格式更改为avro，parquet或ORC。

来源

2016-06-19 16:57:58

实际上我用paraquet – stackit

MySQL比查询优化和总体效率更高效MySQL火花

回答

相关问题