2016-05-05 191 views
0

我正在研究建立一个JDBC Spark连接以使用R/python。我知道pysparkSparkR都可用 - 但这些似乎更适合交互式分析,尤其是因为它们为用户保留了群集资源。我正在考虑更类似于Tableau ODBC Spark连接的东西 - 这是我支持简单随机访问的更轻量级(据我了解)。虽然这似乎是可能的,并且存在一些documentation,但对于我而言,JDBC驱动程序的要求并不明确。JDBC Spark连接

我应该像使用org.apache.hive.jdbc.HiveDriver一样建立Hive连接,因为Hive和Spark SQL通过节俭似乎紧密相连吗?我应该换出Hive连接(使用HiveServer2端口)所需的hadoop公共依赖关系(用于hive.server2.thrift.http.port)吗?

此外,由于大多数连接功能似乎利用Hive,导致Spark SQL被用作查询引擎而不是Hive的关键是什么?

回答

0

事实证明,我需要使用的URL与ambari中列出的Hive数据库主机URL不匹配。我在一个示例中遇到了正确的URL,以便如何连接(专门针对我的集群)。鉴于正确的URL,我能够使用HiveDriver建立连接而没有问题。