2017-04-16 64 views
0

我正在使用Apache Spark Streaming使用TCP连接器来接收数据。 我有一个连接到传感器的python应用程序,并创建一个等待Apache Spark连接的TCP服务器,然后通过这个套接字发送json数据。加入流Apache Spark

我该如何设法加入许多独立传感器源,以便将数据发送到Apache Spark上的相同接收器?

+0

请参阅[如何询问堆栈溢出](https://stackoverflow.com/help/how-to - 问),并参观 – Prasad

回答

0

看起来好像您需要面向消息的中间件(MOM)或一个kafka集群来处理实时数据馈送。您的消息制作者可以发送到kafka主题,并且Spark流可以从该kafka主题接收。这样你可以分离你的制作者和接收者。 Kafka可以线性扩展并使用它与火花流kafka-带反压的直接流方法可以为您提供良好的故障恢复弹性。 如果您选择另一个MOM,您可以使用基于火花接收器的方法和联合多个流来扩展它