2017-02-16 136 views
2

我正在运行配置单元2.1.1,Ubuntu 16.04上的hadoop 2.7.3。Spark上的Hive 2.1.1 - 我应该使用哪个版本的Spark

Hive on Spark: Getting Started,它说

Install/build a compatible version. Hive root pom.xml's defines what version of Spark it was built/tested with.

我检查了pom.xml的,它表明,火花的版本是1.6.0。

<spark.version>1.6.0</spark.version> 

Hive on Spark: Getting Started也说,

Prior to Spark 2.0.0: ./make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.4,parquet-provided"

Since Spark 2.0.0: ./dev/make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.7,parquet-provided"

所以现在我很困惑,因为我正在运行的Hadoop 2.7.3。我必须将我的hadoop降级到2.4吗?

我应该使用哪个版本的Spark? 1.6.0还是2.0.0?

谢谢!

回答

0

我目前使用火花2.0.2与hadoop 2.7.3和配置单元2.1,它的工作正常。我认为配置单元将支持spark 1.6.x和2.x两个版本,但我会建议你使用spark 2.x,因为它是最新版本。

一些激励链接,为什么要使用火花2.X https://docs.cloud.databricks.com/docs/latest/sample_applications/04%20Apache%20Spark%202.0%20Examples/03%20Performance%20Apache%20(Spark%202.0%20vs%201.6).html

Apache Spark vs Apache Spark 2

+0

我试过Spark 1.6.0,它工作。我会按照你的建议测试Spark 2.0.2。 –

+0

如果您遇到任何问题,请告知我。 –

+2

@siddharthajain,请你分享你在Spark上配置Hive的详细步骤?我试图在Spark(2.1.0)上运行Hive(2.1.1),但失败了。我以独立模式启动Spark,并使用以下命令启动配置单元:hive --auxpath $ HOME/Tools/spark-2.1.0-bin-hadoop2.7/jars /,使用命令设置配置单元: set hive.execution.engine = spark; set spark.master = spark://10.0.0.26:7077; 配置单元> set spark.eventLog.enabled = true; hive> set spark.eventLog.dir =/tmp/hive-shizhz/spark /; 配置单元> set spark.executor.memory = 512m; 配置单元> set spark.serializer = org.apache.spark.serializer。KryoSerializer; – shizhz

0

星火2.X的当前版本与蜂巢2.1和Hadoop 2.7兼容,有一个最大的错误:

JavaSparkListener不可用,蜂巢崩溃的执​​行

https://issues.apache.org/jira/browse/SPARK-17563

你可以尝试建立蜂巢2.1 Hadoop的2.7和1.6星火带:

./make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.7,parquet-provided" 

如果2.0后的差值来看看的命令是./make-distribution是文件夹的/ dev内。

如果不Hadoop的2.7.X的工作,我可以肯定你,我已经能够使用Hadoop 2.6成功构建它,使用:

./make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.6,parquet-provided" 

和斯卡拉2.10.5

+0

根据以下链接,最近在2.2.0中已修复此问题 https://issues.apache.org/jira/browse/HIVE-14029 –

+0

该问题已解决,但未解决https://问题。 apache.org/jira/browse/SPARK-17563。 – chuseuiti