所以我必须从以前的作业的输出文件格式(txt文件)查找最-K
" 145
"Defects," 1
"Information 1
"Plain 2
"Project 5
"Right 1
#51302] 1
$5,000) 1
& 3
'AS-IS', 1
( 1
("the 1
每条线的左侧,是我读单词从文档和每行右侧的数字是我计算它的次数。我想使用Python & Hadoop Streaming来创建另一个地图缩减作业,以查找top-k值。在这种情况下,我们说5。我无法想象映射器应该做什么。
我应该分析每一行并将每个单词和计数附加到列表中。那么从这些列表中,我会采取top-k值并将其发送给reducer吗?然后reducer读取所有这些列表并只返回top-k值?如果有人可以通过伪代码提供一些建议或纠正我,如果我在错误的道路上,将不胜感激。谢谢!