1
因此,我不熟悉AWS S3和pyspark和linux。我不知道从哪里开始。这里是我的问题:使用pyspark/python在AWS S3上的目录中列出文件
在linux下我可以发出以下命令,可以在文件夹中看到文件:
aws s3 ls 's3://datastore/L2/parquet'
做类似的事情,与Python不起作用
import os
os.listdir('s3://datastore/L2/parquet')
它给错误:
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
OSError: [Errno 2] No such file or directory: 's3://datastore/L2/parquet'
然而,pyspark
和SQLContext.read.parquet
理解的IT得好:
from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
df = sqlContext.read.parquet('s3://datastore/L2/parquet')
任何理由为什么它工作在SQLContext
和os.listdir
不起作用?我在哪里可以开始清除我的困惑?除了“获得cs学士学位”之外的任何答复都会有所帮助。