在CDH的NameNode中,当我通过odbc脚本(php/perl或python)运行查询时,我可以获取所有结果(9.2M)在一个变量中大约30秒,但是当我用相同的脚本/查询试图另一个远程2级的服务器上时,执行时间是在第一服务器28分钟和在第二17分钟。Impala ODBC/JDBC性能不佳 - 与NN相比,远程服务器的行提取速度很慢
要排除的假设,这是一个网络速度问题,我获取结果上的一个文件,然后我跟scp命令复制到第一个远程服务器,并完成了〜40秒。
我在查询信息观察什么在CM中存在的线程之间有很大的不同:网络发送等待时间值在3个查询:
在NN查询 :9.40s
在第一个远程服务器:16.7米
在第二个远程服务器:26.8米
而且我也尝试用黑斑羚JDBC的Java脚本,但在NN的结果已经不能刺激继续。
但到目前为止,我无法找到问题出在哪里,我该如何解决它。
NB:我正在使用CDH 5.12.0/Impala 2.9.0,我安装了Impala ODBC 2.5.37.1014。
我会测试这个。 –
我无法在我的centos 6.9中安装hive-jdbc。 它给:没有包hive-jdbc可用。 Rmq:我不认为我对参考文献#1和#2感到担忧,因为我的查询没有错误地被执行。问题在于,在外部群集服务器上,所有行在速度上都很慢。 –
更新了答案。调查是关于延迟,日志可能会显示需要花费的时间。 – Marco99