1
我正试图计算矩形矩阵上每个对角线的总和。我正在使用Python和Hadoop流媒体,但我找不到任何方式配置Hadoop流媒体来获取每行的偏移量,如this guy所示,使用TextInputFormat
。使用TextInputFormat和Python进行Hadoop流式传输 - 记录行号
StackOverflow上还有另一个question询问同样的事情,但没有回应如何做到这一点。 而hadoop doc说了一些关于丢弃keys of LongWritable class
,但我不确定这是否是抵消。
如何配置作业以获得偏移量? 我是否需要创建一个从TextInputFormat
派生的新类,而不是返回LongWritable
?如果我不知道Java,我该怎么做?由于