2016-02-11 123 views
2

我有本地模式下使用的spark集群。我想用databricks外部库spark.csv读取一个csv。我开始我的应用程序如下:在pyspark代码中加载外部库

import os 
import sys 

os.environ["SPARK_HOME"] = "/home/mebuddy/Programs/spark-1.6.0-bin-hadoop2.6" 

spark_home = os.environ.get('SPARK_HOME', None) 
sys.path.insert(0, spark_home + "/python") 
sys.path.insert(0, os.path.join(spark_home, 'python/lib/py4j-0.8.2.1-src.zip')) 

from pyspark import SparkContext, SparkConf, SQLContext 

try: 
    sc 
except NameError: 
    print('initializing SparkContext...') 
    sc=SparkContext() 
sq = SQLContext(sc) 
df = sq.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load("/my/path/to/my/file.csv") 

当我运行它,我得到以下错误:

java.lang.ClassNotFoundException: Failed to load class for data source: com.databricks.spark.csv. 

我的问题:我怎么能加载databricks.spark.csv库内我的Python代码。我不想从实例的外部(使用--packages)加载它。

我尝试添加以下行,但它没有工作:

os.environ["SPARK_CLASSPATH"] = '/home/mebuddy/Programs/spark_lib/spark-csv_2.11-1.3.0.jar' 

回答

2

如果您从头开始创建SparkContext可以SparkContext是intialized例如设置PYSPARK_SUBMIT_ARGS前:

os.environ["PYSPARK_SUBMIT_ARGS"] = (
    "--packages com.databricks:spark-csv_2.11:1.3.0 pyspark-shell" 
) 

sc = SparkContext() 

如果由于某种原因,您预计SparkContext已被初始化,如您的代码所示,这不起作用。在本地模式下,你可以尝试使用Py4J网关和URLClassLoader,但它看起来不是一个好主意,并且不能在集群模式下工作。