0
我有一个oracle数据库,需要将数据导入配置单元表。每日导入数据大小约为1 GB。什么是更好的方法?使用sqoop从RDBMS向配置单元/ hadoop增量导入数据
如果我将每一天的数据作为分区导入,那么如何处理更新的值?
例如,如果我将今天的数据作为分区导入,并且第二天有一些使用新值更新的字段。
使用--lastmodified
我们可以获取值,但是需要将更新后的值发送到新分区还是旧分区(现有的分区)?
如果我发送到新的分区,那么数据是重复的。 如果我想发送到已经存在的分区,我们如何才能实现?
Thankyou Belostoky,请问关于如何使用动态分区解决问题的问题。 – Raj
如果你不是在日期分区,而是在其他一些有限的值域(例如countries/device_type/network_type)上的字段,你可以使用以下语法:INSERT OVERWRITE TABLE your_table PARTITION(part1,part2)...参见:https://cwiki.apache.org/confluence/display/Hive/Tutorial#Tutorial-Dynamic-PartitionInsert – belostoky