2016-02-03 61 views
1

我正试图计算矩形矩阵上每个对角线的总和。我正在使用Python和Hadoop流媒体,但我找不到任何方式配置Hadoop流媒体来获取每行的偏移量,如this guy所示,使用TextInputFormat使用TextInputFormat和Python进行Hadoop流式传输 - 记录行号

StackOverflow上还有另一个question询问同样的事情,但没有回应如何做到这一点。 而hadoop doc说了一些关于丢弃keys of LongWritable class,但我不确定这是否是抵消。

如何配置作业以获得偏移量? 我是否需要创建一个从TextInputFormat派生的新类,而不是返回LongWritable?如果我不知道Java,我该怎么做?由于

回答

0

我做StackOverflow上一些调查研究,并有另一个人问same thing但没有人回答他虽然说使用-inputformat org.apache.hadoop.mapred.lib.NLineInputFormat的作品,但它需要大量的时间作业完成。

我知道这可能会有更好的答案,但直到有人回答,这已经足够了。