我在写一个从卡夫卡主题读取的Spark(v1.6.0)批处理作业。
为此,我可以使用org.apache.spark.streaming.kafka.KafkaUtils#createRDD
但是,我需要为所有分区设置偏移量,并且还需要将它们存储在某个位置(ZK?HDFS?),以了解从何处开始下一批作业。阅读火花批处理作业中的卡夫卡主题
什么是从卡夫卡批工作读取正确的方法?
我还想着写一个流工作代替,从auto.offset.reset=smallest
读取并保存检查点 到HDFS,然后在接下来的运行从启动。
但是在这种情况下,我怎样才能获取一次并在第一批之后停止流式传输?
最好分两个问题。 – maasg