2011-03-31 134 views
0

我已经在Ubuntu 10.04安装Hadoop single-node cluster 0.20.2和运行使用教程的我在这个网站中找到的材料的示例排序例如:运行在Hadoop(单节点集群)

http://www.dscripts.net/wiki/setup-hadoop-ubuntu-single-node

现在我试图在Hadoop上运行Sort example。它需要Sequential文件作为输入。任何人都可以请help me running the Sort example? (或者给我一些关于如何生成顺序文件作为输入的信息)。

预先感谢您.. ;-)

回答

0

看看在RandomWriter例子。这是一项使用随机数据输出序列文件的工作。关键是指定输出格式的job.setOutputFormat(SequenceFileOutputFormat.class)行。

+0

非常感谢!我会试试这个,让你知道;) – 2011-04-05 13:06:58

1

Running Sort Benchmark

使用的排序例为基准,生成10GB使用RandomWriter随机数据/节点。然后使用排序示例对数据进行排序。这提供了一种根据群集大小进行缩放的排序基准。默认情况下,排序示例使用1.0 *容量来减少数量,根据您的群集,您可能会在1.75 *容量下看到更好的结果。

的命令有:

$> bin/hadoop jar hadoop-*-examples.jar randomwriter /path/randFiles 
$> bin/hadoop jar hadoop-*-examples.jar sort /path/randFiles /path/resultFile 

第一命令将生成在兰特目录中的未排序的数据。第二个命令将读取数据,对其进行排序,然后写入rand-sort目录。