2015-08-28 34 views
0

我打算创建一个系统,可以实时读取网络日志,并使用apache spark来处理它们。我打算使用kafka来传递日志以启动流式传输来汇总统计信息。我不确定是否应该执行一些数据解析(原始为json ...),如果是,那么适当的位置在哪里执行它(火星脚本,卡夫卡,别的地方......)如果有人能指导我,我将不胜感激。它对我来说是一种新东西。欢呼声针对Spark Streaming的网络日志解析

回答

0

Apache Kafka是一个分布式pub-sub消息系统。它没有提供任何解析或转换数据的方法。但任何卡夫卡用户都可以处理,分析或转换已发布到卡夫卡的数据,并将转换后的数据重新发布到另一个主题或将其存储在数据库或文件系统中。

从卡夫卡消费数据的方法有很多种,一种是您建议的方式,实时流处理器(apache flume,apache-spark,apache storm,...)。

所以答案是否定的,Kafka没有提供任何解析原始数据的方法。您可以使用spark转换/解析原始数据,但您也可以编写自己的消费者,因为有很多Kafka clients ports或使用任何其他内置消费者Apache flume,Apache storm