2009-06-07 37 views

回答

3

http://hadoop.apache.org/与语言无关。

+0

很抱歉,我没有要求Java实现。事实上,Hadoop可以插入到Scala中,但是样板代码必须用Java编写。 – 2009-06-08 03:26:28

+1

编写一个ScalaHadoopAdapter,负责处理所有样板并将其发布为免费/开放源代码? – yfeldblum 2009-06-12 04:39:17

+7

样板不需要用java编写。 – jshen 2009-11-24 04:17:16

2

回过头来,我遇到了这个问题,最后写了一点基础设施,以便从Scala使用Hadoop。我自己使用了一段时间,但我终于开始将它放到网络上。它的名字(非常原始的)ScalaHadoop

1

进一步jshen的观点:

hadoop流只是使用套接字。使用unix流,你的代码(任何语言)只需要能够从标准输入读取并输出制表符分隔的流。实现一个映射器,如果需要的话,还可以使用reducer(如果相关,将其配置为组合器)。

2

对于在hadoop之上的scala API检出Scoobi,它仍处于繁重的发展过程中,但显示出许多承诺。还有一些努力在Scala incubator的hadoop之上实现分布式集合,但是这种努力尚不可用。

还有一个用于级联Twitter的新型scala包装器,名为Scalding。 在简单查看Scalding的文档后,似乎 虽然它使级联平滑的集成它仍然没有解决我所看到的与级联主要问题:类型安全。 级联中的每个操作都在级联的元组上进行操作(基本上是带有或不带有单独架构的字段值列表),这意味着 类型的错误即I.e.将键作为字符串加入并将键作为长键导致 运行时失败。

3

就个人而言,我已经成为星火的忠实粉丝

http://spark-project.org/

你要做的内存集群计算,显著减少你从磁盘密集型操作的MapReduce体验开销的能力。