2011-09-29 13 views

回答

2

Dumbo Feathers,一组Java类与Dumbo一起使用的(一个Python库,可以很容易地为hadoop编写高效的python M/R程序),请在output classes中这样做。

基本上,在你的python dumbo M/R作业中,你输出的是一个包含两个元素的元组的键 - 第一个元素是要输出到的目录的名称,第二个元素是实际的键。然后,您选择的输出类检查元组以查找要使用的输出目录,并使用MultipleOutputFormat写入不同的子目录。

使用dumbo时,由于使用typedbytes作为输出格式,这很容易,但我认为即使您有其他输出格式也应该可行。

+0

我该如何使用它?只需下载jar文件,给“-libjar feathers.jar”而不影响我直到现在写的任何map/reduce工作?我可以参考的任何示例测试代码都是有用的 – daydreamer