apache-spark

0热度

1回答

我正在使用Dstream（Spark Streaming）的Transform API对数据进行排序。我正在使用netcat从TCP套接字读取数据。继使用的代码行： myDStream.transform（rdd => rdd.sortByKey（））无法找到函数sortByKey。任何人都可以请帮助这一步中的问题是什么？

1热度

2回答

Maven使用jenkins for scala编译spark程序：“没有主要的神器安装，而是安装附加的工件

我有一个项目有多个scala spark程序，而我通过eclipse运行mvn install我能够得到正确的jar生成的使用spark-submit命令运行将代码推送到GIT之后，我们试图使用jenkins来构建它，因为我们想要使用无法自动将jar文件推送到我们的hadoop集群我们有jenkinsfile与建立目标为“编译软件包安装-X” 日志显示 - [DEBUG](f)artifact

0热度

2回答

火花短路，排序和懒惰地图

我正在处理一个优化问题，该问题涉及在对象集合上最小化昂贵的地图操作。天真溶液会是这样的 rdd.map(expensive).min() 然而，映射函数将返回保证是值> = 0。因此，如果任何一个的结果是0，I可以采取作为答案和不需要计算其余的地图操作。是否有使用Spark做到这一点的惯用方式？

0热度

2回答

如何在pyspark中设置拆分和减速器的数量

我想在amazon EMR实例上运行pyspark以从dynamodb读取数据，并想知道如何在代码中设置拆分和工人数量？我遵循以下两个文档中的说明来提供当前连接到dynamoDB并读取数据的代码。 connecting to dynamoDB from pyspark 和Pyspark documentation from pyspark.context import SparkContext

3热度

2回答

如何加载连续3行的数据集被视为一个？

2热度

1回答

Spark：将Scala ML模型加载到PySpark

我在scala Spark中训练了一个LDA模型。 val lda = new LDA().setK(k).setMaxIter(iter).setFeaturesCol(colnames).fit(data) lda.save(path) 我检查了我保存的模型，它包含两个文件夹：元数据和数据。然而，当我尝试这种模式加载到PySpark，我得到了一个错误说： model = LDAMod

1热度

1回答

pyspark：按值将单个RDD分割为多个RDD

我无法找到答案。如果我有RDD rdd = sc.parallelize([('a', [1,2,3]), ('b',[4,5,6])]) 其中每个值都是一个列表。有没有方法可以拆分RDD，使得它成为 sc.parallelize([('a',1),('a',2),('a',3),('b',4),('b',5),('b'6)]) 现在在哪里每个值是列表的元素之一，搭配的关键。我大致知

0热度

3回答

pyspark RDD - 在一些指标加元组的列表

我有一个RDD看起来像这样 [(3,6,7), (2,5,7), (4,3,7)] 我想获得的平均第一要素，以及第二个元素之和的总和第三要素。这是输出是什么样子： (3,14,21) 是否有可能做到这一点使用pyspark？

2热度

2回答

虚列火花JDBC

我使用的查询，如下所示，以从MySQL获取数据： var df = spark.read.format("jdbc") .option("url", "jdbc:mysql://10.0.0.192:3306/retail_db") .option("driver" ,"com.mysql.jdbc.Driver") .option("user", "retai

0热度

1回答

PySpark：数据帧 - 转换结构数组