是否有任何解析器,我可以用它来解析存储在hdfs中的json文件中存在的json以从中提取信息。存储在hdfs中的纱线解析作业日志
1
A
回答
1
.jhist文件中的第二行是文件中其他jsons的avro模式。这意味着您可以从jhist文件中创建avro数据。 为此,您可以使用avro-tools-1.7.7.jar
# schema is the second line
sed -n '2p;3q' file.jhist > schema.avsc
# removing the first two lines
sed '1,2d' file.jhist > pfile.jhist
# finally converting to avro data
java -jar avro-tools-1.7.7.jar fromjson pfile.jhist --schema-file schema.avsc > file.avro
你有一个Avro的数据,这些数据例如,你可以导入到蜂巢表,并在其上查询。
0
您可以检出Rumen,apache生态系统的解析工具 或者当您访问Web UI时,转到作业历史记录并查找要读取.jhist文件的作业。点击左侧的计数器链接,现在您将能够看到一个API,它提供了所有参数和值,例如以毫秒为单位的CPU时间等,它将从.jhist文件本身读取。
相关问题
- 1. Apache Spark:纱线日志分析
- 2. 如何在HDFS中存储和分析时间戳日志
- 3. HDFS:其中FSImage&编辑日志存储
- 4. PHP - 解析新线日志
- 5. 如何删除纱线日志
- 6. 找不到纱线应用日志
- 7. 通过Web UI访问纱线日志
- 8. Azure存储分析日志解析错误
- 9. 如何理解纱线appattempt日志和诊断?
- 10. QRadar,解析日志
- 11. 解析skype日志
- 12. Cron作业没有存储错误/日志结果
- 13. phpmyadmin操作日志存储在哪里?
- 14. 日志解析/分析
- 15. Perl解析日志/存储结果/读取结果
- 16. 如何访问纱线群中的火花事件日志
- 17. 按日志行解析日志文件
- 18. 在纱线中并行运行多个hadoop作业
- 19. Linux的日志解析器
- 20. Perl的解析Apache日志
- 21. 无法解析logstash中的日志文件中的日志
- 22. 在logstash中解析pytest日志
- 23. 在PHP中高效解析Apache日志
- 24. 在PowerShell中解析PSCustomObject,事件日志
- 25. 重定向到日志容器服务器时,查看已完成的火花作业日志上纱
- 26. 在日志解析器中读取IIS日志文件
- 27. 纱线UI在HDFS UI中不显示活动节点
- 28. 如何调试apache纱线中的作业故障
- 29. 使用hdfs://和火花中的纱线之间的区别
- 30. 制作在线日志
这可以用来解析avro二进制文件吗?我尝试解析.jhist文件,它是avro二进制格式,并在尝试转换时,遇到一些二进制字符时会抛出错误。 – CodingOwl