我的EMR集群中的路径为'hdfs:/// logs'的日志文件很多。每个日志条目都是多行,但有一个起始和结束标记来划分两个条目。 现在,在有或没有使用Hive的情况下处理Amazon EMR中的日志
- 未在日志文件中的所有条目都是有用
- 其是有用的需要,待转化的条目和输出需要被存储在一个输出文件,让我可以有效地查询(使用配置单元)稍后输出日志。
我有一个python脚本,可以简单地采取一个日志文件,并做一部分。和b。如上所述,但我没有编写任何映射器或缩减器。
Hive负责Mappers和Reducers的查询。请告诉我是否以及如何使用python脚本在所有日志上运行并将输出保存在'hdfs:/// outputlogs'中?
我是Map Reduce的新手,已经看到了Word count的一些例子,但它们都有一个输入文件。我在哪里可以找到具有多个输入文件的示例?