apache-spark-1.4

0热度

1回答

我想计算同一列内两个值之间的差异。现在我只想要最后一个值和第一个值之间的差异，但是使用last（column）会返回空值结果。 last（）不会返回一个值吗？有没有办法将我想要的值的位置作为变量传递;例如：10日和1日，或7日和6日？ Current code 使用火花1.4.0和Scala 2.11.6 myDF =由m列一些数据帧具有n行 def difference(col: Column)

1热度

1回答

Spark 1.4 Mllib LDA topicDistributions（）返回错误的文档数

我有一个LDA模型，运行在语料库大小为12,054个文档，语义大小为9,681个字和60个集群。我试图通过调用.topicDistributions（）或.javaTopicDistributions（）来获取文档的主题分布。这两种方法都会在文档上返回一个主题分布的rdd。根据我的理解，行数应该是文档数量，列数应该是主题数量。但是，在调用topicDistributions（）之后，当我计算rdd

2热度

1回答

无法使用saveAsTextFile将RDD [String]保存为文本文件

当我尝试将我的RDD写入HDFS上的文本文件时，如下所示，出现错误。 val rdd = sc.textFile("/user/hadoop/dxld801/test.txt") val filtered = rdd.map({line=> line.replace("\\N","NULL")}) filtered.saveAsTextFile("hdfs:///user/hadoop/dxl

6热度

3回答

无法启动火花外壳

我正在使用Spark 1.4.1。我可以使用spark-submit没有问题。但是，当我跑~/spark/bin/spark-shell 我得到了下面错误我已经配置SPARK_HOME和JAVA_HOME。然而，正是有了1.2 15/10/08 02:40:30 WARN NativeCodeLoader: Unable to load native-hadoop library for

0热度

1回答

Spark工人节点已移除但未消失

我正在使用Spark独立工作，只需要一位主人和一位工作人员进行测试。起初我使用了一个工人箱子，但现在我决定使用一个不同的工人箱子。为此，我停止了正在运行的主设备，我更改了conf/slave文件中的IP，然后再次运行它。然而这位老工人仍在装载。当我看到主人的8080。现在我看到奴隶既是我放置在conf/slaves文件中的新版本，也是我从conf/slaves中删除的旧版本。我不知道该怎么做，并

6热度

1回答

在Apache中星火SQL，如何关闭从HiveContext

metastore连接我的项目有不同的HiveContext配置单元测试（有时他们是在一个文件中，因为它们是通过特性组合。）升级到星火1.4我遇到后很多'java.sql.SQLException：Derby的另一个实例可能已经引导了数据库的问题，因为补丁使这些上下文无法共享同一个元数据。因为它不干净以恢复每个测试的单例状态。我唯一的选择就是通过终止以前的Derby Metastore连接来“

1热度

1回答

Spark：DecoderException：java.lang.OutOfMemoryError

我在具有3个工作节点的群集上运行Spark流应用程序。一旦在一段时间的工作是失败由于以下异常： Job aborted due to stage failure: Task 0 in stage 4508517.0 failed 4 times, most recent failure: Lost task 0.3 in stage 4508517.0 (TID 1376191, 172.31.4

25热度

4回答

如何将字符串类型中的Dataframe列更改为pyspark中的Double类型

我有一个以String形式的列的数据框。我想在pyspark中将列类型更改为Double类型。以下是这样的，我做到了， - toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show']))