2017-12-18 25 views
1

我在aws胶水控制台中有向导生成的胶水作业。我没有更改任务生成的默认脚本。它从posgres数据库表(源)获取数据并写入另一个postgres数据库(目标)。我在ide中选择了启用书签。每当任务运行时,即使在源中没有插入,更新或删除时,它也会将完整的源数据库表复制到目标表。我明白在启用书签的情况下,它应该只复制上次运行源中的更改,但这不会发生。因此,如果源表中有4行,则每次运行任务时都会将所有4行添加到目标中,并且目标的行数将增加1.如何才能使其仅处理来自上次源数据的chages跑? 此外,它如何收藏?如果在两次运行之间修改了一行(更新sql语句),它将如何“更新”正确的行?即使存在书签,AWS胶水每次都会将全部数据从源复制到目标

回答

1

书签仅在两个S3端点之间复制数据时有效。 JDBC/ODBC不受支持。

+0

谢谢@joshua。人们如何管理只将源中的增量更改复制到目标? –

+0

我标记了Joshua的回答是正确的,因为我从AWS支持获得了类似的回复。 –

+0

http://docs.aws.amazon.com/glue/latest/dg/add-crawler.html本文档建议:如果您的爬虫程序运行多次(可能按计划),它会查找新的或已更改的文件或数据存储中的表。搜寻器的输出包含自上次运行以来发现的新表。 – user3462649

相关问题