2012-10-16 52 views
4

我想熟悉Hadoop-MapReduce。在研究了这些概念的理论知识后,我想对他们进行练习。用于Hadoop-MapReduce的小数据集

但是,我找不到这种技术的小数据集(高达3 Gb)。我在哪里可以找到数据集来练习?

或者,我该如何练习Hadoop-MapReduce?换句话说,有没有提供练习的教程或网站?

回答

5

为什么不自己创建一些数据集?

一个非常简单的事情就是用一个数以百万计的随机数填充一个文件,然后使用Hadoop来查找重复,三元组,素数,重复数的因子等等。

当然,它不像寻找常见的Facebook朋友那样有趣,但它应该足以得到一点Hadoop的做法。

+1

对我来说这是费时的事,而不是一个好习惯。在我看来,处理有意义的数据集将提高我的解决问题的能力。 – user1743323

+0

我不同意这两个,但当然是由你来决定。我认为简单的人造数据是一个更好的开始,因为您不必先理解和解析或预处理它。而且,通过简单的任务和简单的数据,您可以更轻松地验证您的程序是否在实际工作。祝你好运与基因组或电影评级。 – rolve

7

可公开访问的数据集,您可以下载并随时使用。下面是一个 几个例子。

http://www.netflixprize.com/index - 作为比赛的一部分,它 用户发布的收视数据集来挑战人们开发更好的 推荐算法。未压缩的数据在2 GB +。它包含 来自480 K用户的17 K电影的100 M +电影评级。

http://aws.amazon.com/publicdatasets/ - 例如,其中一个 生物数据集是大约550 GB的注释人类基因组数据。在 经济学下,您可以找到数据集,例如2000年美国人口普查(大约 200 GB)。

http://boston.lti.cs.cmu.edu/Data/clueweb09/ -Carnegie梅隆大学的 语言技术研究院发布了ClueWeb09数据集,以帮助 大规模网络的研究。这是10种语言的十亿个网页的抓取。未压缩的数据集占用25 TB。

3

或者,我该如何练习Hadoop-MapReduce?换句话说,有没有提供练习的教程或网站?

以下是一些toy problems上手。还检查Data-Intensive Text Processing with MapReduce,它已经得到了一些像MapReduce中实现的page-rank,连接,索引等算法的伪代码。

以下是一些随时间收集的公共数据集。你可能需要挖掘小的。

http://wiki.gephi.org/index.php/Datasets
Download large data for Hadoop
http://datamob.org/datasets
http://konect.uni-koblenz.de/
http://snap.stanford.edu/data/
http://archive.ics.uci.edu/ml/
https://bitly.com/bundles/hmason/1
http://www.inside-r.org/howto/finding-data-internet
https://docs.google.com/document/pub?id=1CNBmPiuvcU8gKTMvTQStIbTZcO_CTLMvPxxBrs0hHCg
http://ftp3.ncdc.noaa.gov/pub/data/noaa/1990/
http://data.cityofsantacruz.com/