2015-08-22 82 views
5

有没有比较Stinger vs Impala和Drill的任何性能基准(真正的基准)?此外,哪些是首选 - 我的使用案例将主要针对Hive之上的特殊交互式查询。谢谢。Apache Drill的性能

回答

3

有网站http://allegro.tech/fast-data-hackathon.html一些业绩数字。

一般情况下,我们看到了钻和黑斑羚是可比在用钻机是它没有元数据定义和它的易用性与JSON数据时查询能力分化的交互查询性能。

注意,这些测试是对钻如0.8/0.9多旧版本(也未用于数据局部性适当配置)。现在Drill是1.1,在SQL(窗口函数等)和性能上有很多改进。

+0

感谢您的回复,您对Stinger.next有什么看法?它与Drill相比如何?任何基准来确定哪个更快? – Sai

+0

另外,Dr可以在处理TB数据集时执行吗?我读到Impala和Presto不适用于庞大数据集上的复杂查询。 – Sai

2

你不能这样做基准这样的,这是没有意义的,你永远不应该相信这样一个基准。

一切都取决于你自己的数据,你有JSON文件?比较喜欢Drill。你想查询超过1TB,比较喜欢Hive等。

此外,您可以考虑文件格式,JSON,Kudu,Parquet或ORC。

然后来优化,蜂巢+ TEZ似乎是parrarel查询单查询好,但速度很慢。鉴于Impala是相反的(MapReduce与MassiveParrarelProcessing)。

此外,要考虑硬件的ressource,硬盘SSD与否等。

我建议,与Apache钻+ JSON文件开始,然后尝试阿帕奇钻镶木地板或ORC。

如果您需要帮助,准确地描述你所拥有的(数据+硬件),你想要什么。

+0

您好托马斯,我试图在512 GB RAM和48个CPU的单个节点上运行大型钻取查询。查询花费太长时间才能运行大约30 GB的数据。完成所有记录汇总需要1个多小时。你有任何我需要检查的调整参数吗? –

+1

1节点?你必须了解什么是Drill,比如PrestoDB,Impala ......这是一个MPP大规模并行处理引擎,所以最好有几个节点^^ –

+2

由于我们有48个CPU,我们可以在它们之间进行并行处理吗? –