1
我试图运行流式处理hadoop。我有两个文件。一个是mapper的java文件,另一个是reducer的python脚本。使用Java Class作为映射器和Python脚本作为Reducer
MerkleMapper.java
Class MerkleMapper extends MapREduceBase
并限定map()
功能。对于输入分割的每条记录,它将读取输入key(byte_offset)
,value(line)
对并输出byte_offset
和该行的散列。
Reducer是一个python脚本,它结合了所有的散列并生成一个顶部散列。
是否有可能将两者结合起来(java和python)。我如何使用Streaming将我的java文件指定为映射器。