我是一个新手,试图了解我们可能会重新写一批ETL过程到谷歌数据流。我读过一些文档,运行几个例子。复杂的加入谷歌数据流
我建议新的ETL过程由商业事件驱动(即源PCollection)。这些将触发该特定商业实体的ETL过程。 ETL过程将从源系统中提取数据集,然后将这些结果(PCollections)传递到下一个处理阶段。处理阶段将涉及各种类型的联合(包括笛卡尔和非关键联结,例如日期结合)。
所以一对夫妇的问题在这里:
(1)是我提议有效&有效的办法?如果不是更好,我还没有看到任何关于使用Google Dataflow的真实复杂ETL过程的演示,只有简单的场景。
是否有更适合的“更高级”ETL产品?我一直在关注Spark和Flink。
我们目前的ETL虽然只有大约30个核心表(经典的EDW维度和事实)以及〜1000个转换步骤,但是中等复杂。源数据很复杂(大约150个Oracle表)。
(2)复杂的非关键连接,这些如何处理?
我明显被Google Dataflow吸引,因为它首先是一个API,并行处理功能看起来非常合适(我们被要求从批处理过夜转移到增量处理)。
这个用例的数据流的一个很好的例子会真正推动采用!
谢谢, 迈克小号