2017-01-24 73 views
-1

据我所知,Spark可以使用Spark Streaming来分析流。 卡夫卡可以接收来自多个来源的数据。 我不明白的是,如果我有一个Kafka集群接收来自多个数据源的数据,数据是否会通过Spark Streaming运行发送到数据库?或者在应用程序服务器上运行Spark Streaming?Spark Streaming在哪里运行?

回答

1

如果您使用Spark Streaming,则需要设置Spark群集,然后将Spark Streaming作业提交给群集。因此,您将不得不2个集群:Kafka + Spark(或者实际上是3个,因为您还需要Kafka的Zookeeper集群)。

+0

所以如果我有一个火花簇,火花工作正在应用服务器上运行?并以mapreduce风格分配给spark集群? – Khan

+1

http://spark.apache.org/docs/latest/cluster-overview.html –