2013-10-27 15 views
0

我是Hadoop和Map的新手,我使用旧版本的hadoop 0.19。 我有一个程序,读取文件/ EXCEL,给我列内容的地方,位置,名称等映射器可以写入多个文件

名单让我们假设我有映射将我输入文件分为两个部分。 这些映射器中的每一个都会给我一个上述实体的列表。

我的问题是:

  1. 如何保持跟踪数据并单独保存的地点和名称列表从每个mapper.How每个文件都将减速机识别这些文件,并拿出的地方综合名单和每个文件的另一个名称。

说DOC-1:

list of places from mapper1---NY,1 US,2 
list of names from mapper1---James 3 ,Ron 8 
list of places from mapper-2 --NY 6 UK 5 
list of names from mapper 2--Kate 9 

这样的事情。

如何保存每个映射器的输出以及每个类型的实体的名称或地点。

reducer如何识别和减少名称,并提出最终列表或只有位置,并提出与该文件有关的最终列表。

请帮助我,并让我知道任何方法,帮助我在Java中做到这一点。

回答

0

如果这是一个仅限地图的作业,则会有与Mappers相同数量的输出文件。如果这是一个MapReduce作业,您可以指定Reducers的数量。提供一个将数据从特定映射器发送到特定Reducer的分区器。如果您不确定Mappers的数量,请将Reducers的数量略高于总数,并仅使用Partitioner的前n个Reducers。

相关问题