Q

如何在EMR集群中跨Jupyter笔记本使用自定义用户定义函数？

2017-07-03 20 views 1 likes

1

我想与我们的数据科学家在EMR集群中使用pyspark和jupyter的其他集群共享我在Scala中创建的udfs。如何在EMR集群中跨Jupyter笔记本使用自定义用户定义函数？

这可能吗？怎么样？

2017-07-03 Lior Baber

+0

可能的复制[使用Scala的UDF在PySpark] （https://stackoverflow.com/questions/41780141/using-a-scala-udf-in-pyspark） – zeapo

+0

@zeapo不要这么想，因为它是关于在Jupyter中跨EMR集群共享UDF，可以提供这样的功能。这在Spark中是不可能的，除非*人们在Spark Thrift服务器中使用共享的'SparkSession'。 –

+0

这不是，因为我希望能够共享现有函数并将它们添加到spark目录中，而不是每次都重新创建它们 –

A

回答

0

this answer确实有助于

创建一个超级罐子，放在S3上的引导作用COPT从S3引发当地的jar文件夹，它应该工作的

2017-07-03 10:06:46

相关问题