2015-10-01 26 views
3

已经安装我的Mac机上Spark-1.5.0,我试图初始化火花背景与com.databricks:-csv_2.11:1.2.0包rStudio,如:火花1.5.0 - 装载com.databricks:-csv_2.11:1.2.0在RStudio

Sys.setenv('SPARKR_SUBMIT_ARGS'='"--packages" "com.databricks:-csv_2.11:1.2.0" "sparkr-shell"') 
library(SparkR, lib.loc = "spark-1.5.0-bin-hadoop2.6/R/lib/") 
sc <- sparkR.init(sparkHome = "spark-1.5.0-bin-hadoop2.6/") 

但我发现了以下错误消息:

[unresolved dependency: com.springml#spark-salesforce_2.10;1.0.1: not found] 

为什么会发生呢?

P.s.,当我使用​​时,初始化工作正常。

UPDATE

我试图使用版本com.databricks:spark-csv_2.10:1.2.0和事情工作正常。

现在,我使用rStudio这段代码加载一个CSV文件:

sqlContext <- sparkRSQL.init(sc) 
flights <- read.df(sqlContext, "R/nycflights13.csv", "com.databricks.spark.csv", header="true") 

我收到以下错误信息:

Error in writeJobj(con, object) : invalid jobj 1 

当我执行sqlContext我得到的错误:

Error in callJMethod(x, "getClass") : 
    Invalid jobj 1. If SparkR was restarted, Spark operations need to be re-executed. 

会话信息:

R version 3.2.0 (2015-04-16) 
Platform: x86_64-apple-darwin13.4.0 (64-bit) 
Running under: OS X 10.10.2 (Yosemite) 

locale: 
[1] en_GB.UTF-8/en_GB.UTF-8/en_GB.UTF-8/C/en_GB.UTF-8/en_GB.UTF-8 

attached base packages: 
[1] stats  graphics grDevices utils  datasets methods base  

other attached packages: 
[1] SparkR_1.5.0 rJava_0.9-7 

loaded via a namespace (and not attached): 
[1] tools_3.2.0 

请注意,当我使用Spark Shell使用相同的命令时,我不会收到此错误。

+1

这里见我的回答:

一切都重新启动Rsession和使用下面的代码后,现在的工作http://stackoverflow.com/q/32873434/1560062,2.11是斯卡拉版和bre-构建的二进制文件正在使用Scala 2.10。如果你想使用2.11,你必须[使用Scala 2.11从源代码构建Spark](http://spark.apache.org/docs/latest/building-spark.html#building-for-scala-211)。此外,你的包名中有拼写错误 - 它应该是'com.databricks:spark-csv_2.11:1.2.0'。如果你只是想在2.10上使用最新版本的'spark-csv',可以使用'com.databricks:spark-csv_2.10:1.2.0'。 – zero323

+0

谢谢@ zero323。试图使用com.databricks:spark-csv_2.10:1.2.0,但是当我上传一个csv文件时出现以下错误:writeJobj(con,object)错误:invalidjj 1 –

+0

错误“writeJobj中的错误(con,object):invalid jobj 1“在我使用Spark shell而不是rStudio时不会发生?任何想法为什么? –

回答

1

问题已解决。

Sys.setenv('SPARKR_SUBMIT_ARGS'='"--packages" "com.databricks:spark-csv_2.10:1.2.0" "sparkr-shell"') 
library(rJava) 
library(SparkR, lib.loc = "spark-1.5.0-bin-hadoop2.6/R/lib/") 

sc <- sparkR.init(master = "local", sparkHome = "spark-1.5.0-bin-hadoop2.6") 

sqlContext <- sparkRSQL.init(sc) 

flights <- read.df(sqlContext, "R/nycflights13.csv", "com.databricks.spark.csv", header="true")