2
我按照使用初始化脚本启动Google DataProc群集以启动jupyter笔记本的说明。启动Google DataProc群集以与Jupyter笔记本一起使用时,如何添加额外的jar包?
我怎么能包括在Jupyter笔记本电脑所产生的SparkContext(特别pyspark)额外的JAR文件(火花XML,例如)?
我按照使用初始化脚本启动Google DataProc群集以启动jupyter笔记本的说明。启动Google DataProc群集以与Jupyter笔记本一起使用时,如何添加额外的jar包?
我怎么能包括在Jupyter笔记本电脑所产生的SparkContext(特别pyspark)额外的JAR文件(火花XML,例如)?
答案稍微取决于您要加载的罐子。例如,你可以使用火花XML与创建群集时,以下几点:
$ gcloud dataproc clusters create [cluster-name] \
--zone [zone] \
--initialization-actions \
gs://dataproc-initialization-actions/jupyter/jupyter.sh \
--properties spark:spark.jars.packages=com.databricks:spark-xml_2.11:0.4.1
要指定多个Maven的坐标,您将需要交换从gcloud字典分隔符“”别的东西(如我们需要使用分离的包安装):如何转义字符改变
$ gcloud dataproc clusters create [cluster-name] \
--zone [zone] \
--initialization-actions \
gs://dataproc-initialization-actions/jupyter/jupyter.sh \
--properties=^#^spark:spark.jars.packages=artifact1,artifact2,artifact3
详细信息可在gcloud发现:
$ gcloud help topic escaping