2014-04-01 89 views
4

我正在尝试查找有关AWS Data Pipeline支持的数据源的文档。我需要做的是将SQL Server RDS数据导出到S3。我发现很多文档都说Data Pipeline可以使用RDS作为源,但我看到的每个示例仅适用于MySQL RDS。AWS数据管道支持SQL Server RDS

有没有人有数据管道和SQL Server RDS的经验?如果是这样,你用什么数据节点连接到SQL Server RDS(例如MySqlDataNode,SqlDataNode)?

最终目标是将数据从SQL Server RDS移至AWS Red Shift。

谢谢

回答

1

我们放弃了为此使用数据管道。我建议使用普通的ETL工具。如果你正在运行任何Windows服务器,那么SSIS可能是最好的选择,否则看看Pentaho或Talend。

你有没有非ASCII数据?将数据从SQL Server的UTF16-LE转换为UTF8是我最头疼的事情。我在博客上写了一些解决方案(http://blog.joeharris76.com/2013/09/migrating-from-sql-server-to-redshift.html)。

0

数据管道似乎还只是内置了对MySQL RDS的支持。

一个选项是启动一个EMR集群,并使用sqoop。您可以使用sqoop导入到s3中,并使用COPY命令(或数据管道)将其直接加载到Redshift中。

有一个数据管道EMRResource。您需要创建一个引导任务,在主服务器上下载并设置sqoop并获取相关的jdbc驱动程序。

此外,EMRActivity似乎想要一个jar文件,当我想要从主脚本上的shell脚本运行sqoop命令。我不确定这是多么容易解决。也许与EMRResource的ShellCommandActivity?

相关问题