运行在Hadoop（单节点集群）

我已经在Ubuntu 10.04安装Hadoop single-node cluster 0.20.2和运行使用教程的我在这个网站中找到的材料的示例排序例如：运行在Hadoop（单节点集群）

现在我试图在Hadoop上运行Sort example。它需要Sequential文件作为输入。任何人都可以请help me running the Sort example？（或者给我一些关于如何生成顺序文件作为输入的信息）。

预先感谢您.. ;-)

2011-03-31 pr_prog_84

看看在RandomWriter例子。这是一项使用随机数据输出序列文件的工作。关键是指定输出格式的job.setOutputFormat(SequenceFileOutputFormat.class)行。

2011-04-04 13:13:45

非常感谢！我会试试这个，让你知道;） – 2011-04-05 13:06:58

使用的排序例为基准，生成10GB使用RandomWriter随机数据/节点。然后使用排序示例对数据进行排序。这提供了一种根据群集大小进行缩放的排序基准。默认情况下，排序示例使用1.0 *容量来减少数量，根据您的群集，您可能会在1.75 *容量下看到更好的结果。

的命令有：

$> bin/hadoop jar hadoop-*-examples.jar randomwriter /path/randFiles 
$> bin/hadoop jar hadoop-*-examples.jar sort /path/randFiles /path/resultFile

第一命令将生成在兰特目录中的未排序的数据。第二个命令将读取数据，对其进行排序，然后写入rand-sort目录。

2011-04-29 00:32:11

回答