2015-09-28 55 views
1

我有一个数据管道每小时运行一次,运行HiveCopyActivity从DynamoDB中选择过去一小时的数据到S3。我从中选择的表格有一个散列键VisitorID和范围键Timestamp,大约有400万行,大小为7.5GB。为了减少工作所需的时间,我在Timestamp上创建了一个全局二级索引,但在监控Cloudwatch之后,似乎HiveCopyActivity不使用索引。我已阅读了所有相关的AWS文档,但找不到任何索引。AWS Data Pipeline不使用DynamoDB的索引

有没有办法强制数据管道使用索引,而这样的过滤?如果没有,是否有其他可以将DynamoDB的每小时(或任何其他时间)数据传输到S3的应用程序?

回答

0

不幸的是,DynamoDB EMR Hive适配器目前不支持使用索引。您需要编写自己的扫描仪扫描索引并将其输出到S3 - 您可以查看https://github.com/awslabs/dynamodb-import-export-tool了解实施导入/导出管道的一些基本知识。该库本质上是一个用于扫描DDB表的并行扫描框架。

相关问题