我打算创建一个系统,可以实时读取网络日志,并使用apache spark来处理它们。我打算使用kafka来传递日志以启动流式传输来汇总统计信息。我不确定是否应该执行一些数据解析(原始为json ...),如果是,那么适当的位置在哪里执行它(火星脚本,卡夫卡,别的地方......)如果有人能指导我,我将不胜感激。它对我来说是一种新东西。欢呼声针对Spark Streaming的网络日志解析
0
A
回答
0
Apache Kafka是一个分布式pub-sub消息系统。它没有提供任何解析或转换数据的方法。但任何卡夫卡用户都可以处理,分析或转换已发布到卡夫卡的数据,并将转换后的数据重新发布到另一个主题或将其存储在数据库或文件系统中。
从卡夫卡消费数据的方法有很多种,一种是您建议的方式,实时流处理器(apache flume,apache-spark,apache storm,...)。
所以答案是否定的,Kafka没有提供任何解析原始数据的方法。您可以使用spark转换/解析原始数据,但您也可以编写自己的消费者,因为有很多Kafka clients ports或使用任何其他内置消费者Apache flume,Apache storm等
相关问题
- 1. Spark Streaming Standalone:保存日志
- 2. 针对IP的Python日志解析
- 3. 在spark-streaming中解析json
- 4. Java Spark Streaming JSON解析
- 5. Spark Streaming + Elasticsearch:无法解析符号saveToE
- 6. 如何使用R解析网络服务器日志?
- 7. Spark Streaming Multiple Streaming Jobs
- 8. QRadar,解析日志
- 9. 解析skype日志
- 10. 日志解析/分析
- 11. JAVA - 网络日志文件
- 12. 使用Apache Kafka获取网站日志并使用Spark Streaming处理它
- 13. 网络/ Golang - 对“GET”请求的解析
- 14. Python解析网络
- 15. 从网络解析
- 16. 按日志行解析日志文件
- 17. Linux的日志解析器
- 18. Perl的解析Apache日志
- 19. Apache Spark:纱线日志分析
- 20. 如何清除的SharePoint使用日志和/或网络分析日志
- 21. 亚马逊网络服务:Spark Streaming或Lambda
- 22. Spark-Streaming Kafka Direct Streaming API&Parallelism
- 23. Android日志无法解析
- 24. 解析日志文件
- 25. 分析IIS网络日志排除故障的工具
- 26. 解析log4j日志文件
- 27. 解析PostgreSQL CSV日志
- 28. 解析日志与logstash
- 29. 解释Spark Stage输出日志
- 30. 了解网络分析器