2017-03-08 67 views
0

我想知道如何在PySpark中为Spark版本2+指定自定义分析器类。在1.6,我知道我能做到这一点是这样的:指定运行Spark 2.0的pyspark的自定义分析器

sc = SparkContext('local', 'test', profiler_cls='MyProfiler') 

,但是当我在2.0创建SparkSession我没有明确访问 的SparkContext。有人可以请告知如何为Spark 2.0+做这件事吗?

回答

1

SparkSession可以使用现有的SparkContext被初始化,例如:

from pyspark import SparkContext 
from pyspark.sql import SparkSession 
from pyspark.profiler import BasicProfiler 

spark = SparkSession(SparkContext('local', 'test', profiler_cls=BasicProfiler))