2015-10-15 55 views
3

我可以从安装apache spark的同一集群中的hive服务器加载数据。但是,我怎么能从远程配置单元服务器加载数据到数据帧。配置单元jdbc连接器是唯一的选择吗?远程连接apache spark与apache配置单元。

任何建议我该怎么做?

+0

重复:https://stackoverflow.com/questions/31980584/how-to-connect-to-a-hive-metastore-programmatically-in-sparksql –

回答

6

您可以使用org.apache.spark.sql.hive.HiveContext在Hive表上执行SQL查询。

您也可以将spark连接到真正存储数据的底层HDFS目录。这将更具性能,因为SQL查询不需要解析或者将模式应用于文件。

如果群集是外部一个,you'll need to set hive.metastore.uris