2014-06-17 77 views

回答

0

根据我的经验,最简洁但静态的类型和非常灵活的是Scalding。它强大,简洁和功能强大。

Scalding是一个开源的Twitter项目,位于Cascading之上。级联位于Hadoop之上。级联的功能是进行用户定义的阶段,并将它们神奇地“级联”成尽可能少的MapReduce阶段。

本页面几乎证明了滚烫的是最好的Hadoop API:

https://github.com/twitter/scalding/wiki/Rosetta-Code

火花(不是技术上的Hadoop技术,它实际上是非常非常好),现在有一个神奇的JsonRDD - 你给它一个JSON文件,它会神奇地制定出计划。

+0

Scalding是如何工作的?它是hadoop技术的一部分吗? – user993257

+0

我添加了更多的细节。 @ user993257 – samthebest

+0

欣赏您的回复,但我需要的是Hadoop技术。只是一个将非结构化数据存储为输入和输出结构化数据的示例。 – user993257