我有一个家庭作业分配,其中必须检索某个文档中不同单词的总数。检索Hadoop中缩减输入组的数量
这与Hadoop提供的WordCount示例非常相似。但是现在我只想要文档中不同单词的总数。在控制台输出中,减少输入组的数量对应于不同单词的总数。
有没有简单的方法来检索这个数字,甚至没有减少数据。或者Map/Reduce不是解决这个问题的方法。链接也可以是一个解决方案,但是因为答案已经在作业的控制台输出中提供了,所以我想知道是否没有简单的方法来检索减少输入组的数量而不做不需要的东西。
问候, Hadoop的新人
感谢您的输入我现在使用“减少输入组”计数器的值。这可以通过使用'Job'实例'job.getCounters()。findCounter(“org.apache.hadoop.mapred.Task $ Counter”,“REDUCE_INPUT_GROUPS”)''的以下方法找到。我使用Hadoop 1.0.0 – roelio 2012-02-22 11:51:16