用于Hadoop-MapReduce的小数据集

我想熟悉Hadoop-MapReduce。在研究了这些概念的理论知识后，我想对他们进行练习。用于Hadoop-MapReduce的小数据集

但是，我找不到这种技术的小数据集（高达3 Gb）。我在哪里可以找到数据集来练习？

或者，我该如何练习Hadoop-MapReduce？换句话说，有没有提供练习的教程或网站？

为什么不自己创建一些数据集？

一个非常简单的事情就是用一个数以百万计的随机数填充一个文件，然后使用Hadoop来查找重复，三元组，素数，重复数的因子等等。

当然，它不像寻找常见的Facebook朋友那样有趣，但它应该足以得到一点Hadoop的做法。

2012-10-16 13:11:53 rolve

对我来说这是费时的事，而不是一个好习惯。在我看来，处理有意义的数据集将提高我的解决问题的能力。 – user1743323

我不同意这两个，但当然是由你来决定。我认为简单的人造数据是一个更好的开始，因为您不必先理解和解析或预处理它。而且，通过简单的任务和简单的数据，您可以更轻松地验证您的程序是否在实际工作。祝你好运与基因组或电影评级。 – rolve

可公开访问的数据集，您可以下载并随时使用。下面是一个几个例子。

http://www.netflixprize.com/index - 作为比赛的一部分，它用户发布的收视数据集来挑战人们开发更好的推荐算法。未压缩的数据在2 GB +。它包含来自480 K用户的17 K电影的100 M +电影评级。

http://aws.amazon.com/publicdatasets/ - 例如，其中一个生物数据集是大约550 GB的注释人类基因组数据。在经济学下，您可以找到数据集，例如2000年美国人口普查（大约 200 GB）。

http://boston.lti.cs.cmu.edu/Data/clueweb09/ -Carnegie梅隆大学的语言技术研究院发布了ClueWeb09数据集，以帮助大规模网络的研究。这是10种语言的十亿个网页的抓取。未压缩的数据集占用25 TB。

2012-10-16 14:29:50

或者，我该如何练习Hadoop-MapReduce？换句话说，有没有提供练习的教程或网站？

以下是一些toy problems上手。还检查Data-Intensive Text Processing with MapReduce，它已经得到了一些像MapReduce中实现的page-rank，连接，索引等算法的伪代码。

以下是一些随时间收集的公共数据集。你可能需要挖掘小的。

2012-10-16 14:49:50

回答