2017-07-03 20 views
1

我想与我们的数据科学家在EMR集群中使用pyspark和jupyter的其他集群共享我在Scala中创建的udfs。如何在EMR集群中跨Jupyter笔记本使用自定义用户定义函数?

这可能吗?怎么样?

+0

可能的复制[使用Scala的UDF在PySpark] (https://stackoverflow.com/questions/41780141/using-a-scala-udf-in-pyspark) – zeapo

+0

@zeapo不要这么想,因为它是关于在Jupyter中跨EMR集群共享UDF,可以提供这样的功能。这在Spark中是不可能的,除非*人们在Spark Thrift服务器中使用共享的'SparkSession'。 –

+0

这不是,因为我希望能够共享现有函数并将它们添加到spark目录中,而不是每次都重新创建它们 –

回答

0

this answer确实有助于

创建一个超级罐子,放在S3上的引导作用COPT从S3引发当地的jar文件夹,它应该工作的

相关问题