AWS Data Pipeline不使用DynamoDB的索引

我有一个数据管道每小时运行一次，运行HiveCopyActivity从DynamoDB中选择过去一小时的数据到S3。我从中选择的表格有一个散列键VisitorID和范围键Timestamp，大约有400万行，大小为7.5GB。为了减少工作所需的时间，我在Timestamp上创建了一个全局二级索引，但在监控Cloudwatch之后，似乎HiveCopyActivity不使用索引。我已阅读了所有相关的AWS文档，但找不到任何索引。AWS Data Pipeline不使用DynamoDB的索引

有没有办法强制数据管道使用索引，而这样的过滤？如果没有，是否有其他可以将DynamoDB的每小时（或任何其他时间）数据传输到S3的应用程序？

来源

2015-09-28 Tom

不幸的是，DynamoDB EMR Hive适配器目前不支持使用索引。您需要编写自己的扫描仪扫描索引并将其输出到S3 - 您可以查看https://github.com/awslabs/dynamodb-import-export-tool了解实施导入/导出管道的一些基本知识。该库本质上是一个用于扫描DDB表的并行扫描框架。

来源

2015-09-28 20:37:19

AWS Data Pipeline不使用DynamoDB的索引

回答

相关问题