Q

PySpark：如何在工作人员上安装Linux命令行工具？

2015-07-21 47 views 0 likes

0

我正在尝试使用Linux命令行工具'Poppler'从pdf文件中提取信息。我想为几个Spark工作人员提供大量的PDF文件。我需要使用Popplers，而不是PyPDF或任何类似的东西。PySpark：如何在工作人员上安装Linux命令行工具？

有人知道如何在工人上安装Poppler吗？我知道我可以在Python中执行命令行调用，并获取输出（或通过Poppler库获取生成的文件），但是如何将它安装在每个工作者上？我使用spark 1.3.1（databricks）。

谢谢！

2015-07-21 Loek Janssen

A

回答

1

正确的方法是将它安装在所有工作人员上，当您最初设置它们时，您将安装任何其他Linux应用程序。正如你已经指出的那样，你可以从Python中退出。

如果不是出于某种原因的选项，那么你可以运送文件使用addFile方法所有工人：http://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.SparkContext.addFile

注意，后者的做法不照顾的依赖（库等）。

2015-07-21 20:31:54 user2303197

相关问题