2015-07-21 47 views
0

我正在尝试使用Linux命令行工具'Poppler'从pdf文件中提取信息。我想为几个Spark工作人员提供大量的PDF文件。我需要使用Popplers,而不是PyPDF或任何类似的东西。PySpark:如何在工作人员上安装Linux命令行工具?

有人知道如何在工人上安装Poppler吗?我知道我可以在Python中执行命令行调用,并获取输出(或通过Poppler库获取生成的文件),但是如何将它安装在每个工作者上?我使用spark 1.3.1(databricks)。

谢谢!

回答

相关问题