2016-05-03 52 views
0

嗨,我正在交互使用pyspark。我想我无法正确加载本地文件。pyspark:如何显示当前目录?

如何查看当前目录,以便我可以浏览器查看该实际文件?

或者是pyspark的默认目录?谢谢

回答

2

除非在同一路径下的所有员工中都有相同的文件,否则无法加载本地文件。例如,如果要读取spark中的data.csv文件,请将此文件复制到同一路径下的所有worker(例如/tmp/data.csv)。现在你可以使用sc.textFile(“file:///tmp/data.csv”)来创建RDD。

当前工作目录是您已启动pyspark的文件夹。您可以使用ipython启动pyspark并运行pwd命令来检查工作目录。 [在spark-env.sh中设置PYSPARK_DRIVER_PYTHON =/path/to/ipython以使用ipython]