在文件名中具有冒号的亚马逊S3文件我有一个S3存储桶,其中包含在其文件名中含冒号的多个文件。加载通过pyspark
实施例:
s3://my_bucket/my_data/en/2015120/batch:222:111:00000.jl.gz
我试图如下到火花RDD加载此并访问第一行。
my_data = sc.textFile("s3://my_bucket/my_data/en/2015120/batch:222:111:00000.jl.gz")
my_data.take(1)
但这抛出,
llegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI:
任何建议,以单独或更优选加载这些文件的整个文件夹
可以尝试使用*在文件名中。像's3://path/*.gz'。我正在使用和上面一样的东西,它正在为我工作。 – dheee