2017-06-15 128 views
0

来从远程服务器hive2表我用下面的代码试图从远程火花服务器hive2访问表:错误而尝试使用火花

import org.apache.spark.SparkContext, org.apache.spark.SparkConf, org.apache.spark.sql._ 
import com.typesafe.config._ 
import java.io._ 
import org.apache.hadoop.fs._ 
import org.apache.spark.sql.hive.HiveContext 
import org.apache.spark.sql.Row 
import org.apache.spark.sql.SparkSession 

object stack { 
    def main(args: Array[String]) { 
val warehouseLocation = "/usr/hive/warehouse" 
System.setProperty("javax.jdo.option.ConnectionURL","jdbc:mysql://sparkserver:3306/metastore?createDatabaseIfNotExist=true") 
System.setProperty("javax.jdo.option.ConnectionUserName","hiveroot") 
System.setProperty("javax.jdo.option.ConnectionPassword","hivepassword") 
System.setProperty("hive.exec.scratchdir","/tmp/hive/${user.name}") 
System.setProperty("spark.sql.warehouse.dir", warehouseLocation) 
    // System.setProperty("hive.metastore.uris", "thrift://sparkserver:9083") 
System.setProperty("javax.jdo.option.ConnectionDriverName","com.mysql.jdbc.Driver") 
System.setProperty("hive.metastore.warehouse.dir","/user/hive/warehouse") 


val spark = SparkSession.builder().master("local") 
.appName("spark remote") 
    // .config("javax.jdo.option.ConnectionURL","jdbc:mysql://sparkserver:3306/metastore?createDatabaseIfNotExist=true") 
.config("javax.jdo.option.ConnectionURL","jdbc:mysql://sparkserver:3306/metastore?createDatabaseIfNotExist=true") 
    .config("javax.jdo.option.ConnectionUserName","hiveroot") 
    .config("javax.jdo.option.ConnectionPassword","hivepassword") 
    .config("hive.exec.scratchdir","/tmp/hive/${user.name}") 
    .config("spark.sql.warehouse.dir", warehouseLocation) 
// .config("hive.metastore.uris", "thrift://sparkserver:9083") 
    .config("javax.jdo.option.ConnectionDriverName","com.mysql.jdbc.Driver") 
    .config("hive.querylog.location","/tmp/hivequerylogs/${user.name}") 
    .config("hive.support.concurrency","false") 
    .config("hive.server2.enable.doAs","true") 
    .config("hive.server2.authentication","PAM") 
    .config("hive.server2.custom.authentication.class","org.apache.hive.service.auth.PamAuthenticationProvider") 
    .config("hive.server2.authentication.pam.services","sshd,sudo") 
    .config("hive.stats.dbclass","jdbc:mysql") 
    .config("hive.stats.jdbcdriver","com.mysql.jdbc.Driver") 
    .config("hive.session.history.enabled","true") 
    .config("hive.metastore.schema.verification","false") 
    .config("hive.optimize.sort.dynamic.partition","false") 
    .config("hive.optimize.insert.dest.volume","false") 
    .config("datanucleus.fixedDatastore","true") 
    .config("hive.metastore.warehouse.dir","/user/hive/warehouse") 
    .config("datanucleus.autoCreateSchema","false") 
    .config("datanucleus.schema.autoCreateAll","true") 
    .config("datanucleus.schema.validateConstraints","true") 
    .config("datanucleus.schema.validateColumns","true") 
    .config("datanucleus.schema.validateTables","true")  
    .config("fs.default.name","hdfs://sparkserver:54310") 
    .config("dfs.namenode.name.dir","/usr/local/hadoop_tmp/hdfs/namenode") 
    .config("dfs.datanode.name.dir","/usr/local/hadoop_tmp/hdfs/datanode") 
    .enableHiveSupport() 
    .getOrCreate() 

import spark.implicits._ 
import spark.sql 

sql("select * from sample.source").collect.foreach(println) 
sql("select * from sample.destination").collect.foreach(println) 
    } 
} 

连接请求元店被拒绝通过远程配置单元服务器。

错误:无法启动蜂房metastore.service:未找到单位蜂房metastore.service

谢谢!

回答

1

通常情况下,我们并不需要单独指向远程metastore。

Hive-site.xml将在conf内部通过jdbc指向Metastore。

同样的conf可以设置初始化蜂房上下文之前在程序如下:

试试看吧。

System.setProperty("javax.jdo.option.ConnectionURL", "jdbc:mysql://<ip>/metastore?createDatabaseIfNotExist=true") 
...("javax.jdo.option.ConnectionDriverName", "com.mysql.jdbc.Driver") 
...("javax.jdo.option.ConnectionUserName", "mysql-user") 
...("javax.jdo.option.ConnectionPassword", "mysql-passwd") 
+0

Raktotpal,我有两个不同的hive安装,一个是在localhost上有hive.metastore。uris as 其工作正常时,即时通讯试图访问从本地主机配置单位,我的火花也运行在本地主机,但现在我试图连接远程机器已安装配置单元和metstore是节俭://sparkserver:9083 – Vickyster

+0

是啊,我明白了,然后使用hive-site.xml - 在我的答案中提到的所有属性。 ------------程序将能够连接到该配置单元服务器。 Hive-Metastore服务在该远程配置单元服务器中完全没有运行;所以,不需要单独连接到Metastore服务器。 –

+0

但我不想使用Hive-site.xml文件而是我想调用config中的所有属性。我会试着让你知道 – Vickyster

1

当你使用这个:.config("hive.metastore.uris", "hive2://hiveserver:9083"),hiveserver应该是正确的远程配置单元服务器的ip。

该conf hive.metastore.uris指向配置单元服务;并且如果您在本地运行(在本地主机中) - 并且想要远程Metastore;你需要单独启动配置单元服务。

`$HIVE_HOME/bin/hive --service metastore` -p 9083 

或者 - 默认情况下,Hive使用本地Hive-metastore;所以在这种情况下,你不需要设置任何值hive.metastore.uris

而且 - 忘了提,你设置的属性 - 总是使用thrift协议 - 无论是hiveserver1或hiveserver2。

所以,总是用这样的:

.config("hive.metastore.uris", "thrift://hiveserver:9083") 
+0

我用(--service metastore' -p 9083)这个命令在蜂巢界面远程机器,但没有运气同样的错误坚持 – Vickyster

+0

当您启动metastore服务;控制台中出现了哪些日志? 'hive --service metastore -p 9083' –

+0

远程机器主机名是sparkserver,那么我应该给sparkserver或用户名@ sparkserver? – Vickyster