我已经安装了Spark-1.4.0。我还安装了它的R包SparkR,我可以通过Spark-shell和RStudio使用它,但是,我无法解决一个区别。通过RStudio加载com.databricks.spark.csv
当启动SparkR壳
./bin/sparkR --master local[7] --packages com.databricks:spark-csv_2.10:1.0.3
我可以阅读的.csv文件作为不幸的是如下
flights <- read.df(sqlContext, "data/nycflights13.csv", "com.databricks.spark.csv", header="true")
,当我通过RStudio开始SparkR(正确设置我的SPARK_HOME)我得到以下错误消息:
15/06/16 16:18:58 ERROR RBackendHandler: load on 1 failed
Caused by: java.lang.RuntimeException: Failed to load class for data source: com.databricks.spark.csv
我知道应该加载com.databricks:火花csv_2.10:1 .0.3在某种程度上,但我不知道如何做到这一点。有人能帮助我吗?
跟着你上面的步骤,我无法读取sparkR壳csv文件。 org.apache.spark.SparkException:收到此错误, 所致作业已中止由于阶段失败:在阶段0 0(TID 0失落任务0.0:钽 SK 0级0.0失败1次,最近一次失败,localhost):java.lang.NullPointerException 你对此有什么想法吗? –
我不知道,我不能复制错误。然而,你的sqlContext确实存在,该输入路径确实存在,它正确地发现com.databricks.spark.csv我知道,否则你就会有其他错误的消息。你能说明你的整个工作流程吗? –
我在这里添加了详细信息http:// stackoverflow。com/questions/31050823/job-fails-on-load-com-databricks-spark-csv-in-sparkr-shell –