2017-07-18 30 views
0

我最近使用'预览'图像在Google Cloud Dataproc上启动了Spark群集。根据该文档,预览图像的Spark版本是'2.1.0',但运行spark-shell --version显示该集群实际上正在运行Spark 2.2.0。这对我们来说是个问题,因为我们的版本spark-avro与Spark 2.2.0不兼容。有没有人遇到过这个问题?我一直无法找到Google关于版本颠簸的官方声明的任何痕迹。Google云Dataproc预览图片的Spark版本是否已更改?

回答

2

对不起,这似乎是最近preview图像更新的副版本注释在以太网中丢失了;该文件应该有望在明天之前更新。事实上,你说得对,现在的Dataproc preview版本现在是Spark 2.2.0。如果你需要固定一个已知的工作旧的预览图像,你可以尝试:

gcloud dataproc clusters create --image https://www.googleapis.com/compute/v1/projects/cloud-dataproc/global/images/dataproc-1-2-20170227-145329 

这应该包含Spark 2.1.0。也就是说,请记住,总体而言,在新的预览图像中可能会发生不兼容的更改,并且固定到较旧的预览图像不能保证长期继续工作。

对于您的情况,您是否碰巧知道您是否碰到这个issue filed on spark-avro或者它是否与您的版本相关?理想情况下,我们应该让您更新到Spark 2.2,因为官方(非预览版)图像版本即将与Spark 2.2一起发布。

+1

非常感谢丹尼斯的回应。我们正在触发spark-avro上的链接问题。我的意图是在问题得到解决后立即升级到2.2.0。我们将使用您在此期间提出的解决方法。真的很期待官方形象发布! – mjaz

+0

感谢您确认问题!我们一定会密切关注spark-avro修复,看起来已经进行得很好:https://github.com/databricks/spark-avro/pull/242 –

相关问题