我使用的火花Java API和我已经开始注意到,我无法解释这种奇怪的事情重复的阶段。正如你在火花:在使用加入
这是我的计划执行的DAG可视化看到,无其他阶段使用3级的计算,也是在第3阶段的三种操作正是第2阶段的前3个操作,所以我的问题,为什么第三阶段是分开计算的?我还没有最后连接操作,这样做具有以下DAG这里运行程序,
通知,有像前面的一个没有平行的阶段。我相信由于这个无法解释的阶段3,我的计划正在放缓。
PS:我很新的火花,这是我的第一个计算器问题,请让我知道这是题外话,或需要更多的细节。
你能显示代码?我可以尝试重现自己,但会感谢您可能提供的任何帮助。谢谢! –
我_guess_是,它是在网络用户界面的问题,以图表的RDD血统。你可以在'join'之后的RDD上加入'DebugString'并粘贴到你的问题上吗? –