我有一种情况,我需要将管道中的主数据流(1.5TB)连接到2个不同的数据集(4.92GB和17.35GB)。我用来为两者执行CoGroupByKey的关键是相同的。有没有办法避免在第一次完成后重新排列连接的左侧?目前我只是将输出作为KV>。这似乎比在第一次连接之后分段发射每个元素要好,但第二个groupByKey似乎仍然比我预期的要长很多。我打算开始考虑拆分CoGroupByKey,看看我是否可以忽略一方的分组,但是我现在确实感到更安全,在这一点上不会降低到这个水平。多个CoGroupByKey具有相同的密钥apache梁
This was prior to keeping Iterables grouped after the first join
CoGroupByKey支持任意数量的输入集合。是否有可能将所有3个输入集合键入相同,并按顺序执行一个CoGroupByKey而不是2个? –