我正试图想出一个从Kafka消费的设计。我正在使用卡夫卡的0.8.1.1版本。我正在考虑设计一个系统,每隔几秒创建一次消费者,从卡夫卡消费数据,处理它,然后在向卡夫卡提交补偿后退出。在任何时间点,期望250-300个消费者都能活跃(在不同的机器上作为ThreadPools运行)。重新平衡Kafka中某个主题的分区的代价
如何以及何时发生分区重新平衡?
消费者之间的分区重新平衡成本如何。我期待新消费者每隔几秒完成一次或加入同一消费群体。所以我只想知道重新平衡操作的开销和延迟。
说消费者C1具有分配给它的分区P1,P2,P3,它正在处理来自分区P1的消息M1。现在消费者C2加入该组织。分区如何在C1和C2之间分配。是否有可能C1(可能需要一段时间才能将信息提交给Kafka)提交给M1将被拒绝,并且M1将被视为新消息并将被交付给其他人(我知道Kafka至少有一次交付模型,但想确认重新分区是否会导致重复传递相同的消息)?
我在Kafka邮件列表中讨论过相同的问题。请检查邮件线程。 http://goo.gl/ImmjRf – Dinesh 2014-11-06 16:42:59
你能得出结论吗? – Jayesh 2016-09-23 12:00:19