我想从S3上的两个不同桶加载数据到Redshift表。在每个存储桶中,都有名称中包含日期的目录,每个目录包含许多文件,但没有清单。AWS Redshift:从S3上的多个桶加载数据
例S3结构:
# Bucket 1
s3://bucket1/20170201/part-01
s3://bucket1/20170201/part-02
s3://bucket1/20170202/part-01
s3://bucket1/20170203/part-00
s3://bucket1/20170203/part-01
# Bucket 2
s3://bucket2/20170201/part-00
s3://bucket2/20170202/part-00
s3://bucket2/20170202/part-01
s3://bucket2/20170203/part-00
比方说,从两个桶的数据为20170201和20170202应该被加载。其中一个解决方案可以运行4次COPY命令 - 每个存储桶的日期对。但我很好奇它是否可以在单个COPY呼叫中完成。我已经看到该清单文件允许指定几个不同的文件(包括来自不同的桶)。但是:
- 是有选项可以使用的前缀,而不是完整的路径在清单中,
- ,我可以用某种方式表现在SQL将它作为一个字符串,而不是文件的位置 - 我想避免在S3上创建临时文件?