我使用Spark Streaming v2.0.0从Kafka检索日志并进行一些操作。我正在使用功能mapWithState
以保存和更新与设备相关的某些字段。我想知道这个函数如何在集群中工作。事实上,我现在只是使用独立模式,但稍后我会尝试使用Yarn群集。Spark Streaming:mapWithState函数如何在集群中工作?
但是,假设我有一个有多个节点的集群,如果一个节点更新设备的状态,他是否立即通知此更新的所有其他节点?如果否,则需要设置群集中的mapWithState
函数。我该怎么做?
谢谢Yuval,这非常清楚! –
Hi Yuval,你有关于HashPartitioner的任何文档。我只有这个链接,但我不明白它是如何工作的。 http://spark.apache.org/docs/2.0.2/api/java/index.html?org/apache/spark/HashPartitioner.html –
http://stackoverflow.com/questions/31424396/how-does- hashpartitioner-work –