2017-07-26 33 views
0

我在greenplum中有外部和内部表。外部表格指向hdfs一个csv文件。 Hdfs中的这个csv文件每小时获得一张表的完整数据。 在greenplum的内部表格中增量加载数据的最佳方式是什么?greenplum中的增量负载

+0

这取决于SLA和需要多长时间加载整个使用表gphdfs。截断和插入可能是最好的方法。插入到target_table中select * from external_table其中,column>'value'可能是最好的方法。或者您可能需要为每个负载动态创建一个外部表。 –

+0

我检查过使用gphdfs能够在外部表中加载整个数据的速度非常快。但是,不是截断整个表格想要在Greenplum中进行增量加载。 – vkumar

+0

我想你只是回答你自己的问题。 –

回答

0

在greenplum中创建维度表,它存储最后加载的时间点,比如时间戳或任何数据点。

使用上面的维度表,你可以以这样的方式返回一个新的文件到达的时候一小时的evf,它会加载到stage/extrenal表,然后用上一个从维度表加载的参数,它会选择只有相关/新记录才能进一步处理。

感谢, 肖卜哈

+0

请阅读https://stackoverflow.com/help/how-to-answer –