假设你有一个数据库,每一个文件是从Twitter上发文,你想,与MapReduce的,生成包含另一个文档:包含MapReduce:地图函数中的聚合?
- 每个国家公布的话
- 名单鸣叫的次数在这些推文中,用一个计数器来计算该词的总点击次数。这对于每个国家也是如此。
我的问题:聚合和计算map函数上的单词,然后再次使用reduce函数是否正确?像这样做,map函数的输出代表单个推文的信息,reduce函数汇总来自同一个国家的多个推文的信息,但我不知道这是否是一种好的做法MapReduce算法...
预先感谢您!