星火foreachpartition连接改进

我已经写了火花工作，这确实低于操作星火foreachpartition连接改进

当我运行这个工作它创建了三个阶段的火花

第一阶段 - 它需要近45秒。执行不同的第二阶段 - mapToPair和reducebykey =需要1.5分钟

第三阶段=需要19分钟

我做了什么

其采取更多比整个工作时间的60％多

我在foreachPartition中创建了SNS/SQS连接，以减少连接。我们是否有更好的方法

我不能对驾驶员创建连接对象，因为这些不是序列

我没有使用5克执行人9号，executore核心15，司机2G内存，执行内存

我使用16芯64演出存储器簇大小1个主9从所有相同的结构 EMR部署火花1.6

2017-02-02 Sam

你确定'创建一个AWS SNS和SQS客户端连接 '正在60％的工作时间或'发布记录SNS/SQS'呢？这两者之间略有不同。对于第一种情况，您需要最小化连接创建的数量，而对于第二种情况，您需要分配数据（并创建更多连接实例）。有趣！！！！ – code

如果是第二种情况，我会用解决方案发布答案。 – code

听起来好像将要设置正好一个每节点SNS/SQS连接，然后用它来处理每个节点上的所有数据。

我认为foreachPartition在这里是正确的想法，但您可能想事先合并RDD。这会在同一个节点上折叠分区而不洗牌，并且可以避免启动额外的SNS/SQS连接。

2017-02-02 19:39:56

是的，coalesce正是我的解决方案。还有一点我想在此添加。我有很多像23kb，45kb等小文件，并且通过coalesce将它缩小到正确的分区，现在我能够在20分钟内处理接近25GB的数据。在这里改进更多 – Sam

谢谢布拉德利..还有一件事..这是说我需要1TB数据来处理我应该创建多少分区合并？ – Sam

所以我会使用足够多的分区，以便每个分区都适合内存，或者我拥有的核心数量。无论哪个更大。 –

回答