回答

3

您可以使用AWS Pipeline。有两个基本模板,一个用于将RDS表移至S3,另一个用于将数据从S3导入DynamoDB。您可以使用这两个模板创建自己的管道。

问候

+0

谢谢,如果我们可以使用这些模板,那将是完美的,但我们有** 2个mySQL表**,我们希望将其存储为** 1个单独的DynamoDB表**。这些模板有用于处理单个表格的选项,但不包括2.是否有解决此问题的方法,这不涉及预处理? (这将是我们的最后手段 - 将2个mySQL表加入一个mySQL表,因为它需要很多时间和空间) –

+1

嗨Ankit。在这种情况下,您需要在管道中包含EMR集群。工作流程应该是:将两个表格以分开的csv移动到S3,EMR集群将合并/连接表并将输出转到S3,最后将数据导入到DynamoDB。在这里,您需要为合并/合并作业开发一点点。使用Hadoop命令可轻松导入/导出到EMR中的S3。 – AGL

3

有一点要考虑这样的大数据是迪纳摩是否是最佳的选择。

如果这是统计数据或其他“大数据”,请查看AWS RedShift,它可能更适合您的情况。

+0

我们需要切换到非规格化的无模式表以适应某些用例,因此对于我们来说,Dynamo是更好的选择。 –

+0

@AnkitKapur - 如果你可以为你的数据选择一个好的散列键,那么Dynamo是唯一不错的选择!请阅读文档,并确保您了解Dynamo的限制和最佳做法,然后再使用该路线。 –

0

我们已经做了类似的工作,可能有更好的策略来做到这一点。在源实例中使用AWS DMS和一些准备表。

它涉及到两个步骤:

  1. 你建立一个源代码实例中新表与dynamodb的模式匹配,到底是哪。如将多个表合并为一个等。

  2. 设置DMS任务,准备表作为源,DynamoDB作为目标。由于准备表和目标模式现在相匹配,所以从这一点来看,它应该是非常简单的。

希望帮助!祝你好运!!