启动Google DataProc群集以与Jupyter笔记本一起使用时，如何添加额外的jar包？

2017-09-07 16 views 2 likes

我按照使用初始化脚本启动Google DataProc群集以启动jupyter笔记本的说明。启动Google DataProc群集以与Jupyter笔记本一起使用时，如何添加额外的jar包？

https://cloud.google.com/blog/big-data/2017/02/google-cloud-platform-for-data-scientists-using-jupyter-notebooks-with-apache-spark-on-google-cloud

我怎么能包括在Jupyter笔记本电脑所产生的SparkContext（特别pyspark）额外的JAR文件（火花XML，例如）？

来源

2017-09-07 seandavi

回答

答案稍微取决于您要加载的罐子。例如，你可以使用火花XML与创建群集时，以下几点：

$ gcloud dataproc clusters create [cluster-name] \ 
    --zone [zone] \ 
    --initialization-actions \ 
     gs://dataproc-initialization-actions/jupyter/jupyter.sh \ 
    --properties spark:spark.jars.packages=com.databricks:spark-xml_2.11:0.4.1

要指定多个Maven的坐标，您将需要交换从gcloud字典分隔符“”别的东西（如我们需要使用分离的包安装）：如何转义字符改变

$ gcloud dataproc clusters create [cluster-name] \ 
    --zone [zone] \ 
    --initialization-actions \ 
     gs://dataproc-initialization-actions/jupyter/jupyter.sh \ 
    --properties=^#^spark:spark.jars.packages=artifact1,artifact2,artifact3

详细信息可在gcloud发现：

$ gcloud help topic escaping

来源

2017-09-07 22:38:00

启动Google DataProc群集以与Jupyter笔记本一起使用时，如何添加额外的jar包？

回答

相关问题