我在Scala中为Spark创建了一组算法和帮助器,可以处理不同格式的测量数据。它们都基于Hadoop的FileInputFormat
。我还创建了一些助手来简化Cassandra数据库中时间序列数据的工作。我现在需要一些已经存在于Thunder中的高级函数,另外一些与这些辅助函数一起工作的同事想要使用Python。是否有可能使用python的这些帮助函数,还是我必须重新实现它们?从pySpark调用基于JVM的算法/函数可能吗?
我读了很多文档,只发现你可以用pyspark加载额外的jar,但不知道如何使用这些函数。
它实际上是可能的。 – eliasah
@eliasah这取决于,不是吗?您可以触发高层次的转换,但不可能从工作人员得到同样的结果。 – zero323
这是真的!我正在考虑像我做的那样[这里](http://stackoverflow.com/a/33500704/3415409) – eliasah