16
如何将C编译的模块(例如python-Levenshtein)发布到Spark集群中的每个节点?将pyspark中的python模块发送到其他节点?
我知道我可以使用独立的python脚本(下面的示例代码)出货火花Python文件:
from pyspark import SparkContext
sc = SparkContext("local", "App Name", pyFiles=['MyFile.py', 'MyOtherFile.py'])
,但在那里是没有的情况下“的.py”我怎么运输模块?
这工作!我可以使用上面的命令为模块创建egg文件,然后该过程就像在pyFiles参数中添加egg文件一样简单。很酷的东西! – mgoldwasser
让PySpark安装.egg依赖关系的建议?类似于http://stackoverflow.com/questions/32119225/databricks-spark-egg-dependencies-not-installed-automatically – ramhiser
如果我的* .egg文件依赖于其他第三方库,这也会工作吗? – guilhermecgs