groupByKey与数百万行的关键

我们尝试：

更改允许执行人/驱动器工作内存的数量。它只能用于关键的10k或100k行。关于将来可能发生的关键数百万行的情况。

似乎没有对那种问题的一些工作：https://github.com/apache/spark/pull/1977

但它是专用于PySpark而不是我们使用Scala的API目前

我的问题是：

2014-10-30 jnaour

我认为这个问题的变化只是让PySpark的工作更像主要的API。无论如何，您可能不希望设计一个每个键都需要大量值的工作流程。除了以不同的方式设计外，没有其他解决方案。

我还没有尝试过这一点，并且只能相当肯定这种行为是有保证的，但是，也许你可以在整个数据集上使用sortBy时间戳，然后使用foldByKey。您提供了一个将前一个值合并到下一个值中的函数。这应该通过时间戳来遇到数据。所以你每次看t行，t + 1，每增加一行就可以返回第t + 1行。

2014-10-30 11:56:12

Thx为答复肖恩。不知道关于foldByKey，我会尝试。问题依然存在，用于通过密钥对所有数据进行聚合。我不知道该怎么做。 – jnaour 2014-10-30 12:42:51

对于我只需要前一个元素的部分，在搜索之后，可以使用zipWithIndex来连接两个RDD：索引和索引+ 1，这样我就可以在一行中获得所需的所有数据。很多过程需要一个简单的需求，但我不确定是否有更好的解决方案... – jnaour 2014-10-30 13:50:20

回答