aws-athena

    0热度

    1回答

    因此,我正在尝试的是使用AWS Glue对S3存储桶中的数据进行爬网。存储为嵌套的JSON和路径数据是这样的: s3://my-bucket/some_id/some_subfolder/datetime.json 当运行默认的抓取工具(没有自定义分类),它基于路径划分,并如预期反序列化JSON,不过,我想摆脱时间戳文件名称以及单独的字段中。目前Crawler忽略它。 例如,如果我上运行履带: