进出口套牢在mrjob mareduce框架一个简单的问题:我想在一个给定的parragraph字的平均数,我得到这个:如何获得mrjob中文本的平均单词数?
class LineAverage(MRJob):
def mapper(self, _, line):
numwords = len(line.split())
yield "words", numwords
yield "lines", 1
def reducer(self, key, values):
yield key, sum(values)
有了这个代码,我得到后减少的过程中,总在线条与文字的话,但我不知道怎么做,以获得平均:
words/TotalOfLines
我在这个模型编程的新手,如果任何人都可以说明这个例子会非常赞赏。
在此期间,非常感谢您的关注和参与
谢谢你的回答@Cheng,我以后再说。我会把答案放在 – Dade
以下我认为如果你有多个减速器,你的答案会产生问题...... –
好吧,你是对的。但是,在这种情况下,我正在进行地图缩减的基本练习。我知道,在未来,我将使用hadoop框架,包含多个映射器和缩减器,以及组合器和更高级的过程,但目前,我们的目标是了解映射缩减逻辑。 Ty为你的意愿。 – Dade