1
我想与我们的数据科学家在EMR集群中使用pyspark和jupyter的其他集群共享我在Scala中创建的udfs。如何在EMR集群中跨Jupyter笔记本使用自定义用户定义函数?
这可能吗?怎么样?
我想与我们的数据科学家在EMR集群中使用pyspark和jupyter的其他集群共享我在Scala中创建的udfs。如何在EMR集群中跨Jupyter笔记本使用自定义用户定义函数?
这可能吗?怎么样?
this answer确实有助于
创建一个超级罐子,放在S3上的引导作用COPT从S3引发当地的jar文件夹,它应该工作的
可能的复制[使用Scala的UDF在PySpark] (https://stackoverflow.com/questions/41780141/using-a-scala-udf-in-pyspark) – zeapo
@zeapo不要这么想,因为它是关于在Jupyter中跨EMR集群共享UDF,可以提供这样的功能。这在Spark中是不可能的,除非*人们在Spark Thrift服务器中使用共享的'SparkSession'。 –
这不是,因为我希望能够共享现有函数并将它们添加到spark目录中,而不是每次都重新创建它们 –