2015-11-05 59 views
1

如何使用Dataflow Java SDK处理节点间通信。意思呢,提交给Dataflow流水线的作业的所有者是否对集群维护和调度具有良好的控制权?节点间通信

似乎是这样的自动管理的用户,因为Dataflow使用容器虚拟机注册Kubernetes API服务器。如果需要影响集群调度的能力,我看到两种可能性 - a)访问原始套接字(如果可用,如何?)或b)为Spark中的节点间通信(如“Akka”)注入代码。为此,是否会在Transforms或PCollections中开发用户定义的功能,或者根据需要开发用户定义的功能?

+0

即时通讯专家,但AFAIK节点间通讯是不可能的,并在文档中提到。看看谷歌dataproc。 –

回答

2

正如问题中提到的,Dataflow是一个完全托管的服务,所以根本不需要管理集群。因此,没有影响集群调度的API等。

如果您需要在变换之间进行数据通信,请参阅side inputs。这使您可以广播PCollection并将其用作DoFn的附加输入。

如果您可以分享更具体的用例,我们可以提供更多关于可用内容的详细信息。