apache-spark

    0热度

    1回答

    我正在使用Dstream(Spark Streaming)的Transform API对数据进行排序。 我正在使用netcat从TCP套接字读取数据。 继使用的代码行: myDStream.transform(rdd => rdd.sortByKey()) 无法找到函数sortByKey。任何人都可以请帮助这一步中的问题是什么?

    1热度

    2回答

    我有一个项目有多个scala spark程序,而我通过eclipse运行mvn install我能够得到正确的jar生成的使用spark-submit命令运行 将代码推送到GIT之后,我们试图使用jenkins来构建它,因为我们想要使用无法自动将jar文件推送到我们的hadoop集群 我们有jenkinsfile与建立目标为“编译软件包安装-X” 日志显示 - [DEBUG](f)artifact

    0热度

    2回答

    我正在处理一个优化问题,该问题涉及在对象集合上最小化昂贵的地图操作。 天真溶液会是这样的 rdd.map(expensive).min() 然而,映射函数将返回保证是值> = 0。因此,如果任何一个的结果是0,I可以采取作为答案和不需要计算其余的地图操作。 是否有使用Spark做到这一点的惯用方式?

    0热度

    2回答

    我想在amazon EMR实例上运行pyspark以从dynamodb读取数据,并想知道如何在代码中设置拆分和工人数量? 我遵循以下两个文档中的说明来提供当前连接到dynamoDB并读取数据的代码。 connecting to dynamoDB from pyspark 和Pyspark documentation from pyspark.context import SparkContext

    3热度

    2回答

    |T 2009-08-26 17:1...| |U http://twitter....| | W No Post Title| | | |T 2009-11-01 02:4...| |U http://twitter....| | W No Post Title| | | |T 2009-11-18 16:5...| |U http://twitter...

    2热度

    1回答

    我在scala Spark中训练了一个LDA模型。 val lda = new LDA().setK(k).setMaxIter(iter).setFeaturesCol(colnames).fit(data) lda.save(path) 我检查了我保存的模型,它包含两个文件夹:元数据和数据。 然而,当我尝试这种模式加载到PySpark,我得到了一个错误说: model = LDAMod

    1热度

    1回答

    我无法找到答案。 如果我有RDD rdd = sc.parallelize([('a', [1,2,3]), ('b',[4,5,6])]) 其中每个值都是一个列表。 有没有方法可以拆分RDD,使得它成为 sc.parallelize([('a',1),('a',2),('a',3),('b',4),('b',5),('b'6)]) 现在在哪里每个值是列表的元素之一,搭配的关键。 我大致知

    0热度

    3回答

    我有一个RDD看起来像这样 [(3,6,7), (2,5,7), (4,3,7)] 我想获得的平均第一要素,以及第二个元素之和的总和第三要素。这是输出是什么样子: (3,14,21) 是否有可能做到这一点使用pyspark?

    2热度

    2回答

    我使用的查询,如下所示,以从MySQL获取数据: var df = spark.read.format("jdbc") .option("url", "jdbc:mysql://10.0.0.192:3306/retail_db") .option("driver" ,"com.mysql.jdbc.Driver") .option("user", "retai

    0热度

    1回答

    我有以下结构的数据帧: root |-- index: long (nullable = true) |-- text: string (nullable = true) |-- topicDistribution: struct (nullable = true) | |-- type: long (nullable = true) | |-- values: array (nulla