在星火

我读一个CSV文件中的Spark 2.0，并使用一列计数不为空值选择dataframes NOT NULL值如下：在星火

val df = spark.read.option("header", "true").csv(dir) 

df.filter("IncidntNum is not null").count()

，当我用放电测试它，它工作正常-贝壳。当我创建一个包含代码的jar文件，并提交给火花提交，我在上面的第二条线得到一个例外：

Exception in thread "main" org.apache.spark.sql.catalyst.parser.ParseException: 
extraneous input '' expecting {'(', 'SELECT', .. 
== SQL == 
IncidntNum is not null 
^^^ 

     at org.apache.spark.sql.catalyst.parser.ParseException.withCommand(ParseDriver.scala:197)

知道为什么这时候我使用的火花工作的代码会发生-贝壳？

来源

2016-11-18 John Doe

这个问题已经坐了一段时间，但迟到比从未好。

我能想到的最可能的原因是，使用spark-submit运行时，您正在以“集群”模式运行。这意味着驱动程序进程将位于与运行spark-shell不同的机器上。这可能会导致Spark读取其他文件。

来源

2017-04-28 04:03:56

回答

相关问题