首先,我正在考虑如何使用Hadoop将事件存储到Hadoop中,并将定期对其进行分析(可能使用Ooozie安排定期分析)Kafka或Flume,以及认为Kafka可能是更好的解决方案,因为我们也有一个组件可以处理事件,所以批处理和事件处理组件都以相同的方式获取数据。使用Kafka将数据导入Hadoop
但知道我正在寻找具体的建议如何将数据从经纪人获取到Hadoop。
我发现here该水槽可以组合使用,卡夫卡
- 水槽 - 包括卡夫卡源(消费者)和沉(制片人)
而且也是在同一页上,并在发现Kafka documentation,有一种叫做Camus
- 加缪 - LinkedIn的卡夫卡=> HDFS管道。这一个用于LinkedIn的所有数据,并且效果很好。
我对什么会更好(更简单,更好的文档化解决方案)这样做感兴趣?另外,有没有任何例子或教程如何做到这一点?
什么时候应该使用这个变种更简单,高级消费者?
如果有另一个/更好的解决方案比这两个我打开的建议。
感谢
查看最新Kafka用户群聚会上的视频以获得一些提示:http://www.hakkalabs.co/文章/ kafka-hadoop-2 – Lundahl 2014-11-04 20:15:19
谢谢,这是一个伟大的视频。如果你有一些具体的教程,也许它会很棒。 – Marko 2014-11-05 10:49:33
@abeaamase感谢您的回答,但您的链接似乎被破坏了? – Marko 2014-11-24 14:12:00