apache-spark-1.4

    0热度

    1回答

    我想计算同一列内两个值之间的差异。现在我只想要最后一个值和第一个值之间的差异,但是使用last(column)会返回空值结果。 last()不会返回一个值吗?有没有办法将我想要的值的位置作为变量传递;例如:10日和1日,或7日和6日? Current code 使用火花1.4.0和Scala 2.11.6 myDF =由m列一些数据帧具有n行 def difference(col: Column)

    1热度

    1回答

    我有一个LDA模型,运行在语料库大小为12,054个文档,语义大小为9,681个字和60个集群。我试图通过调用.topicDistributions()或.javaTopicDistributions()来获取文档的主题分布。这两种方法都会在文档上返回一个主题分布的rdd。根据我的理解,行数应该是文档数量,列数应该是主题数量。但是,在调用topicDistributions()之后,当我计算rdd

    2热度

    1回答

    当我尝试将我的RDD写入HDFS上的文本文件时,如下所示,出现错误。 val rdd = sc.textFile("/user/hadoop/dxld801/test.txt") val filtered = rdd.map({line=> line.replace("\\N","NULL")}) filtered.saveAsTextFile("hdfs:///user/hadoop/dxl

    6热度

    3回答

    我正在使用Spark 1.4.1。 我可以使用spark-submit没有问题。 但是,当我跑~/spark/bin/spark-shell 我得到了下面 错误我已经配置SPARK_HOME和JAVA_HOME。 然而,正是有了1.2 15/10/08 02:40:30 WARN NativeCodeLoader: Unable to load native-hadoop library for

    0热度

    1回答

    我正在使用Spark独立工作,只需要一位主人和一位工作人员进行测试。起初我使用了一个工人箱子,但现在我决定使用一个不同的工人箱子。为此,我停止了正在运行的主设备,我更改了conf/slave文件中的IP,然后再次运行它。然而这位老工人仍在装载。当我看到主人的8080。现在我看到奴隶既是我放置在conf/slaves文件中的新版本,也是我从conf/slaves中删除的旧版本。 我不知道该怎么做,并

    6热度

    1回答

    metastore连接 我的项目有不同的HiveContext配置单元测试(有时他们是在一个文件中,因为它们是通过特性组合。) 升级到星火1.4我遇到后很多'java.sql.SQLException:Derby的另一个实例可能已经引导了数据库的问题,因为补丁使这些上下文无法共享同一个元数据。因为它不干净以恢复每个测试的单例状态。我唯一的选择就是通过终止以前的Derby Metastore连接来“

    1热度

    1回答

    我在具有3个工作节点的群集上运行Spark流应用程序。一旦在一段时间的工作是失败由于以下异常: Job aborted due to stage failure: Task 0 in stage 4508517.0 failed 4 times, most recent failure: Lost task 0.3 in stage 4508517.0 (TID 1376191, 172.31.4

    25热度

    4回答

    我有一个以String形式的列的数据框。 我想在pyspark中将列类型更改为Double类型。 以下是这样的,我做到了, - toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show']))