aws-athena

0热度

1回答

因此，我正在尝试的是使用AWS Glue对S3存储桶中的数据进行爬网。存储为嵌套的JSON和路径数据是这样的： s3://my-bucket/some_id/some_subfolder/datetime.json 当运行默认的抓取工具（没有自定义分类），它基于路径划分，并如预期反序列化JSON，不过，我想摆脱时间戳文件名称以及单独的字段中。目前Crawler忽略它。例如，如果我上运行履带：