0
我们在Cloud中实现了以下ETL过程:每小时在本地数据库中运行查询=>将结果保存为csv并将其加载到云存储中=>将文件从云存储加载到BigQuery table =>使用以下查询删除重复的记录。BigQuery - 删除重复记录有时花费很长时间
SELECT
* EXCEPT (row_number)
FROM (
SELECT
*,
ROW_NUMBER() OVER (PARTITION BY id ORDER BY timestamp DESC) row_number
FROM rawData.stock_movement
)
WHERE row_number = 1
自上午8点(柏林当地时间)今天早上删除重复记录的过程中需要更长的时间比平常那样,即使数据量没有太大的不同比它通常是:它通常需要10秒删除重复的记录,而今天早上有时半小时。
是否删除重复记录不稳定?