我想处理Amazon CloudFront使用Amazon Elastic MapReduce创建的访问日志。使用Elastic MapReduce(PIG)处理CloudFront日志
我只需要一些简单的统计数据,不同的文件从cloudfront加载了多少次,所以我想我应该为此写一个简单的PIG脚本。
我遇到的第一个问题是,云端写入日志gzipped,据我所知我不能读取.gz猪?
关于我应该怎么做的任何建议?我对弹性mapreduce非常陌生,因此欢迎任何关于如何构造这种工作的提示。
我想处理Amazon CloudFront使用Amazon Elastic MapReduce创建的访问日志。使用Elastic MapReduce(PIG)处理CloudFront日志
我只需要一些简单的统计数据,不同的文件从cloudfront加载了多少次,所以我想我应该为此写一个简单的PIG脚本。
我遇到的第一个问题是,云端写入日志gzipped,据我所知我不能读取.gz猪?
关于我应该怎么做的任何建议?我对弹性mapreduce非常陌生,因此欢迎任何关于如何构造这种工作的提示。