uwenku
标签列表
aws-athena
0
热度
1
回答
基于文件名的AWS Glue自定义爬虫程序
因此,我正在尝试的是使用AWS Glue对S3存储桶中的数据进行爬网。存储为嵌套的JSON和路径数据是这样的: s3://my-bucket/some_id/some_subfolder/datetime.json 当运行默认的抓取工具(没有自定义分类),它基于路径划分,并如预期反序列化JSON,不过,我想摆脱时间戳文件名称以及单独的字段中。目前Crawler忽略它。 例如,如果我上运行履带:
amazon-web-services
amazon-s3
aws-glue
aws-athena
2017-11-17
最新问题
1.
查询一个大的Postgres相关表
2.
pytorch中隐藏单元的动态添加
3.
Apache Spark中的分层数据处理
4.
针对JSON键/值嵌套对象的角度js过滤器对我无效
5.
PyCharm F-字符串使用(未解决属性引用 '__name' 类...)
6.
Mysql性能:哪个查询需要更多时间?
7.
Swift-如何编写一个变量或一个在括号内变化的值
8.
如何从“ul”动态标签获得ID
9.
在jupyter笔记本(pyspark)中使用Seaborn时出错
10.
如何设置使用的本征DesnseFunctor输入和值大小在本征的Levenberg马夸特