0

我正在从一个发电机数据库表中将大量数据(1亿条以上)复制到Redshift,我需要根据一些标准过滤数据。我已经评估了几种方法达到这一任务:Redshift COPY命令vs AWS datapipeline RedshiftCopyActivity

  1. 使用红移COPY命令:http://docs.aws.amazon.com/amazondynamodb/latest/developerguide/RedshiftforDynamoDB.htmlhttp://docs.aws.amazon.com/redshift/latest/dg/t_Loading-data-from-dynamodb.html)。 这种方法的缺点: COPY命令会影响源动态数据库表的吞吐量,因此不建议将其用于生产DDB表。 (读取比率调整消耗的源动态数据表表的百分比,建议将此比率设置为小于源表的平均未使用预置吞吐量的值)。

  2. 使用AWS Datapipeline : 仅使用RedshiftCopyActivity :(http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-redshiftcopyactivity.html)将数据直接从Dynamo数据库复制到红移,然后在红移上运行查询以根据条件进行过滤。

我找不到是否源发电机db表的吞吐量将同时使用RedshiftCopyActivity以及影响的任何信息。有人可以提供相同的信息吗?

另外,如果将数据从dynamoDB复制到S3,然后从S3复制到Redshift比直接从发电机DB复制到Redshift更有用吗?

回答

0

尽量减少接触迪纳摩。通常我会说,将它用于除键值存储以外的其他任何内容都是不好的主意。任何逻辑都应该发生在Redshift中。