我有一个用例,其中Hive中的源表每天都以更新整个数据的方式进行更新。在第一天,我们摄取了整个表格,但从第二天起,我们只对其“上次修改日期”已更新以反映前一天的日期的那些行感兴趣。Hive - 如何跟踪和更新Hive中增量表的上次修改日期?
建议的解决方案是在第1天和第2天存储上次修改日期的最大值,比较上次修改日期大于存储日期的所有行,并仅处理这些行。
每天生成,存储和检索上次修改日期的最佳方法是什么?另外,不同的表格会有不同的日期,理想情况下,我想要一个有Table_Name, Last_Modified_Date
的东西,除非有更好的方法。
请帮忙。谢谢。
这可能有效,但它是一个时间戳。不完全确定时间戳可以如何用作分区键。此外,这是ETL管道的一部分,除非我们确信数据已经处理,否则我们不希望更新上次修改日期(无论它将存储在何处)。如果失败了,我们会盲目更新日期,那么我们最终可能会错过一天或更长时间。 – CodingInCircles