2015-04-19 34 views

回答

3

映射器的数量取决于由jobclient计算的输入拆分的数量。

而且配置单元查询就像是一系列Map缩减作业。如果您编写一个简单的查询,如select Count(*) from Employee只会执行一个Map reduce程序。如果您提供包含大量聚合和连接等的复杂查询,则将执行一系列Map Reduce程序,该程序将较早的MR阶段输出用作下一个MR阶段的输入,并将最终结果转储到HDFS中。

减速的数量可以通过开发者在蜂巢壳牌被设置为mapred.reduce.tasks = X

+0

你能告诉我一些文档/ archtechture或过程图。这样我可以更好地理解内部工作的蜂巢查询。 – techprat