附加kafka偏移量foreachRDD中的每个记录

我想检索我的RDD的每个记录上的每个卡夫卡偏移量，在foreachRDD方法中。我在我的主题中有一个分区，所以我的RDD也得到了一个分区。我basicaly尝试somethind这样的：附加kafka偏移量foreachRDD中的每个记录

dStream.foreachRDD { rdd => 
    if (!rdd.isEmpty) { 
    //get offset first value of the offset 
    val firstOffset = rdd.asInstanceOf[HasOffsetRanges].offsetRanges(0).fromOffset 
    val rddWithOffset = rdd.map(_.value) 
     .zipWithIndex() 
     .map{ case (v,i) => (v,i + firstOffset)} 
    } 
}

在我的制片人为例我送使用一个循环的邮件，我将在一个名为位置这样的列的索引：

+------+-----+--------+ 
| name| age|position| 
+------+-----+--------+ 
|johnny| 26|  1| 
| chloe| 42|  2| 
| brian| 19|  3| 
| eliot| 35|  4| 
+------+-----+--------+

不幸的是我注意到，当我在我的消费者中添加胶印列时，订单不会保持不变：

+------+-----+--------+------+ 
| name| age|position|offset| 
+------+-----+--------+------+ 
|johnny| 26|  1|  1| 
| chloe| 42|  2|  3| 
| brian| 19|  3|  4| 
| eliot| 35|  4|  2| 
+------+-----+--------+------+

看起来我似乎松散了此流程的订单。你有什么想法吗？由于

顺便说一句，我的Java制片人是这样的：

KafkaRestProducer<String, Object> producer = new KafkaRestProducer<>(props); 

ArrayList<String> names = new ArrayList<String>() 
names.add("johnny") 
names.add("chloe") 
names.add("brian") 
names.add("eliot") 

ArrayList<Integer> ages = ArrayList<Integer>() 
names.add(26) 
names.add(42) 
names.add(19) 
names.add(35) 

for (int i = 0; i < 3; ++i) { 

    String name = names(i) 
    Int age = ages(i)  
    Person person = Person 
     .newBuilder() 
     .setName(name) 
     .setAge(age) 
     .setPosition(i) 
     .build(); 

    ProducerRecord<String, Object> record = new ProducerRecord<>("/apps/PERSON/streams:myTopic", name, person); 

    producer.send(record, null); 
    System.out.println(i); 
}

来源

2017-08-04 a.moussa

你是什么意思与 “弃秩序”？你观察到什么，它与你所期望的有什么不同？ – maasg

感谢您的评论，我编辑我的问题添加一个例子来说明我是如何松散的顺序。你有什么主意吗？ –

你对卡夫卡主题有多少个分区？ – maasg

我的英语很差。我用这个代码：

val Array(brokers, topic, groupId) = args 
    val kafkaParams = Map[String, String]("metadata.broker.list" -> brokers, "group.id" -> groupId) 
    val topicPartition = Map[TopicAndPartition, Long](TopicAndPartition(topic, 0) -> 1.toLong) 
    val messageHandler = (mmd: MessageAndMetadata[String, String]) => (mmd.offset, mmd.message) 
    val kafkaStream = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder, (Long, String)](
     ssc, kafkaParams, topicPartition, messageHandler) 

    kafkaStream.foreachRDD(rdd => rdd.foreach(println))

输出：（偏移，lineOfMessage） ...

来源

2017-08-14 11:57:14

嗨，谢谢你的回答，但我没有找到这个参数的构造函数createDiirectStream。你是什么版本的卡夫卡？ –

我正在使用。 Spark 1.5.2，Kafka 0.8.2 –

附加kafka偏移量foreachRDD中的每个记录

回答

相关问题