2017-05-01 121 views
0

我对Spark很新,我开发的代码不像我期待的那样快。我开始火花背景下通过以下方式Spark中的并行处理

初始化星火环境

spark_path = "C:\spark" 
os.environ['SPARK_HOME'] = spark_path 
os.environ['HADOOP_HOME'] = spark_path 

sys.path.append(spark_path + "/bin") 
sys.path.append(spark_path + "/python") 
sys.path.append(spark_path + "/python/pyspark/") 
sys.path.append(spark_path + "/python/lib") 
sys.path.append(spark_path + "/python/lib/pyspark.zip") 
sys.path.append(spark_path + "/python/lib/py4j-0.10.4-src.zip") 

from pyspark import SparkContext 
from pyspark import SparkConf 

sc = SparkContext("local", "test") 

现在我决定检查并行度,这是acheiving和使用

sc.defaultParallelism 
>>> 1 

我的问题是三折

  1. 我难道没有平行吗?
  2. 如果不是,那我该怎么办?
  3. 我需要把我的工作具体设置,我已被告知。设置为--conf spark.driver.maxResultSize=0 --conf spark.akka.frameSize=128。我该如何去设置这个

我在Windows服务器上工作4个核心和30GB的RAM创建上下文时

+0

[火花的可能的复制-submit:“--master local \ [n \]”和“--master local --executor-cores m”之间的区别](http://stackoverflow.com/questions/39939076/spark-submit-difference-between -master-localn和 - 主本地-EXEC) – zero323

回答

0

,尽量sc = SparkContext("local[*]", "test")利用所有可用的核心