我发现Apache spark对于相同查询和火花数据帧上的相同表查询,要比MySQL服务器慢得多。MySQL比查询优化和总体效率更高效MySQL火花
那么,哪里会更有效的火花,然后MySQL呢?
注意:在一个有100万行的表格上试过所有10列类型的文本。
表的JSON大小约为10GB
使用至强16核和64GB的RAM和同一台服务器的MySQL独立pyspark笔记本
一般来说,我想知道在什么时候使用指南根据目标数据的大小,SPARK与SQL服务器通过分析查询获得真正快速的结果。
我发现Apache spark对于相同查询和火花数据帧上的相同表查询,要比MySQL服务器慢得多。MySQL比查询优化和总体效率更高效MySQL火花
那么,哪里会更有效的火花,然后MySQL呢?
注意:在一个有100万行的表格上试过所有10列类型的文本。
表的JSON大小约为10GB
使用至强16核和64GB的RAM和同一台服务器的MySQL独立pyspark笔记本
一般来说,我想知道在什么时候使用指南根据目标数据的大小,SPARK与SQL服务器通过分析查询获得真正快速的结果。
好的,所以即使在不知情的情况下回答这个问题仍然很难回答,所以会尽力帮助。假设没有争用资源,这里有很多事情要做。如果你在纱线上运行,并且你的json被存储在hdfs中。它很可能分成许多块,然后这些块在不同的分区中处理。由于json分裂得不好,你会失去很多并行功能。另外,spark并不意味着真正拥有像调优rdbms这样的超低延迟查询。大量数据处理(TB或PB)会导致数据处理繁琐,您从哪里受益。如果您正在寻找低延迟查询,您应该使用Impala或Hive with Tez。您还应该考虑将文件格式更改为avro,parquet或ORC。
实际上我用paraquet – stackit
您是否使用MySQL表中的TB数据尝试它? –
您提到了RDD,但我希望您知道,除非使用DataSet或DataFrame,否则不会有任何实质性的优化。 –
这里有太多的变数。 –