在有或没有使用Hive的情况下处理Amazon EMR中的日志

我的EMR集群中的路径为'hdfs：/// logs'的日志文件很多。每个日志条目都是多行，但有一个起始和结束标记来划分两个条目。现在，在有或没有使用Hive的情况下处理Amazon EMR中的日志

未在日志文件中的所有条目都是有用
其是有用的需要，待转化的条目和输出需要被存储在一个输出文件，让我可以有效地查询（使用配置单元）稍后输出日志。

我有一个python脚本，可以简单地采取一个日志文件，并做一部分。和b。如上所述，但我没有编写任何映射器或缩减器。

Hive负责Mappers和Reducers的查询。请告诉我是否以及如何使用python脚本在所有日志上运行并将输出保存在'hdfs：/// outputlogs'中？

我是Map Reduce的新手，已经看到了Word count的一些例子，但它们都有一个输入文件。我在哪里可以找到具有多个输入文件的示例？

来源

2012-12-21 Deepak Garg

在这里，我看到你有两方面的问题：

有一个以上的文件作为输入

同样的字数示例将工作，如果你在一个以上通文件作为输入。事实上，你可以很容易地通过folder name作为输入，而不是文件名，在你的案例hdfs:///logs。

你甚至可以传递一个逗号分隔的路径，输入列表，用于这个，而不是使用下列内容：

FileInputFormat.setInputPaths(conf, new Path(args[0]));

您可以使用以下方法：

FileInputFormat.setInputPaths(job, args[0]);

请注意，只传递一个逗号分隔列表args[0]将是足够。
如何你的逻辑转换为MapReduce的

这确实有一个陡峭的学习曲线，你将需要考虑的关键和价值观条款。但我觉得，你可以拥有所有的映射器本身的逻辑和有IdentityReducer，像这样：

conf.setReducerClass(IdentityReducer.class);

如果你花一段时间从下列位置读取的例子，你应该在更好地做出这些决定：

来源

2012-12-21 09:22:42 Amar

长期正确的方式来做到这一点，因为阿马尔说，写一个MapReduce工作去做。

但是，如果这是一个一次性的东西，数据是不是太庞大，它可能是最简单的/最简单的用一个简单的bash脚本来做到这一点，因为你已经拥有的python脚本：

hadoop fs -text /logs/* > input.log 
python myscript.py input.log output.log 
hadoop fs -copyFromLocal output.log /outputlogs 
rm -f input.log output.log

如果这是一个重复的过程 - 你想要可靠和高效的东西，或者如果你只是想学习更好地使用MapReduce，那么坚持Amar的答案。

来源

2012-12-21 22:40:38

如果您已经编写了逻辑，并且您想要使用EMR和/或vanilla Hadoop进行并行处理 - 您可以使用Hadoop流式传输：http://hadoop.apache.org/docs/r0.15.2/streaming.html。简而言之 - 脚本将数据转换为标准输入并将输出转换为标准输出可以成为映射器。
因此，您将使用群集在HDFS中运行数据处理，而无需重新打包代码。

来源

2012-12-23 11:23:52

在有或没有使用Hive的情况下处理Amazon EMR中的日志

回答

相关问题