我对Spark和Scala中的并行性有些困惑。我正在运行一个实验,在该实验中,我必须从磁盘更改/处理某些列中读取许多(csv)文件,然后将其写回磁盘。了解Spark和Scala中的并行性
在我的实验中,如果我使用SparkContext的并行化方法,那么它对性能没有任何影响。然而,简单地使用Scala的平行集合(通过par)将时间减少到几乎一半。
我正在本地主机模式下运行我的实验,使用参数local [2]作为spark上下文。
我的问题是什么时候应该使用scala的并行集合以及何时使用spark上下文的并行化?
斯卡拉有各种平行集合。请参阅:http://docs.scala-lang.org/overviews/parallel-collections/conversions.html和http://docs.scala-lang.org/overviews/parallel-collections/concrete-parallel-collections.html –