Q

Scala中的MapReduce实现

2009-06-07 37 views 28 likes

28

我想找出一个好的，强大的MapReduce框架，可以从Scala中使用。Scala中的MapReduce实现

2009-06-07 Roman Kagan

A

回答

30

要添加到Hadoop上的答案：至少有两个Scala包装器使Hadoop的工作更可口。

Scala的地图缩小（SMR）：http://scala-blogs.org/2008/09/scalable-language-and-scalable.html

SHadoop：http://jonhnny-weslley.blogspot.com/2008/05/shadoop.html

UPD 10月5日11

还有Scoobi框架，有很棒的表现力。

2009-06-08 20:00:47

3

http://hadoop.apache.org/与语言无关。

2009-06-07 15:20:56 bayer

+0

很抱歉，我没有要求Java实现。事实上，Hadoop可以插入到Scala中，但是样板代码必须用Java编写。 – 2009-06-08 03:26:28

+1

编写一个ScalaHadoopAdapter，负责处理所有样板并将其发布为免费/开放源代码？ – yfeldblum 2009-06-12 04:39:17

+7

样板不需要用java编写。 – jshen 2009-11-24 04:17:16

2

你可能会对使用CouchDB的Scala界面scouchdb感兴趣。另一个想法是使用GridGain。 ScalaDudes有一个使用GridGain和Scala的例子。另一个例子是here。

2009-10-30 06:50:20 AWhitford

2

回过头来，我遇到了这个问题，最后写了一点基础设施，以便从Scala使用Hadoop。我自己使用了一段时间，但我终于开始将它放到网络上。它的名字（非常原始的）ScalaHadoop。

2010-07-18 22:40:19 bsdfish

1

进一步jshen的观点：

hadoop流只是使用套接字。使用unix流，你的代码（任何语言）只需要能够从标准输入读取并输出制表符分隔的流。实现一个映射器，如果需要的话，还可以使用reducer（如果相关，将其配置为组合器）。

2010-12-15 02:14:37 seanc

2

对于在hadoop之上的scala API检出Scoobi，它仍处于繁重的发展过程中，但显示出许多承诺。还有一些努力在Scala incubator的hadoop之上实现分布式集合，但是这种努力尚不可用。

还有一个用于级联Twitter的新型scala包装器，名为Scalding。在简单查看Scalding的文档后，似乎虽然它使级联平滑的集成它仍然没有解决我所看到的与级联主要问题：类型安全。级联中的每个操作都在级联的元组上进行操作（基本上是带有或不带有单独架构的字段值列表），这意味着类型的错误即I.e.将键作为字符串加入并将键作为长键导致运行时失败。

2012-01-04 20:52:32 Xela

3

就个人而言，我已经成为星火的忠实粉丝

http://spark-project.org/

你要做的内存集群计算，显著减少你从磁盘密集型操作的MapReduce体验开销的能力。

2013-02-01 12:49:23 MattM

相关问题