rdd

0热度

2回答

我有一个Spark独立群集，有2个工作节点和1个主节点。使用spark-shell，我能够从本地文件系统的文件中读取数据，然后做了一些转换并将最终的RDD保存在/ home/output中（假设） RDD已成功保存，但仅在一个工人节点和主节点上只有_SUCCESS文件在那里。现在，如果我想从/ home/output读取这个输出数据，我没有收到任何数据，因为它在master上获得0数据，然后我

0热度

1回答

工人之间的平衡RDD分区 - Spark

我正在与的RDD一起工作，它叫做file。 #values: RDD of tuples (key, val) file = values.groupByKey().mapValues(set).cache() info_file = array(file.map(lambda (x,y): len(y)).collect()) var = np.var(info_file) #extre

-1热度

1回答

地图和斯普利特基于在星火斯卡拉

关键的数据我怎么能在Scala中实现这一 val a = sc.parallelize(List(("a", "aaa$$bbb"), ("b", ("ccc$$ddd$$eee")))) val res1 = a.mapValues(_.replaceAll("\\$\\$", "-")) 这里我有数组[（字符串，字符串）] Array[(String, String)] = Array(

0热度

1回答

将从常见抓取下载的warc.gz文件转换为RDD

我已经从常见抓取下载了warc.gz文件，我必须使用spark来处理它。如何将文件转换为RDD？ sc.textFile("filepath")似乎没有帮助。当rdd.take(1)被打印时，它给了我[u'WARC/1.0']，而它应该给我一个完整的记录。我如何将文件转换为可处理的rdd？谢谢！

0热度

1回答

pyspark喂一个RDD到另一个使用“在”子句

我有一个pyspark RDD（myRDD），该ID的可变长度列表，如 [['a', 'b', 'c'], ['d','f'], ['g', 'h', 'i','j']] 我有一个pyspark数据帧（myDF）列ID和value。我想查询myDF与查询： outputDF = myDF.select(F.collect_set("value")).alias("my_values").wh

1热度

1回答

两个rdd的连接结果是什么？

clickRdd中的元素是(h5id,[query])，其中h5id是一个长整数，查询是一个字符串; revealRdd中的元素是(h5id, [0:id, 1:query, 2:q0, 3:q1, 4:q2, 5:q3, 6:s0, 7:s1, 8:s2, 9:s3]). 和clickJoin = clickRdd.join(revealRdd)的结果是什么，我猜连接键是h5id。加入后任何人

0热度

1回答

将JDBC ResultSet转换为Spark RDD/DataFrame

我试图将JDBC ResultSet转换为Spark RDD，并且正在寻找一种使用Spark的并行性特性来执行此操作的有效方法。下面是我已按本https://stackoverflow.com/a/32073423/6064131 val rs:ResultSet = stmt .getResultSet val colCount = rs.getMetaData.getColumnCount

0热度

2回答

RDD改造和行动

虽然这样做对RDD的转换，例如： - firstRDD=spark.textFile("hdfs://...") secondRDD=firstRDD.filter(someFunction); thirdRDD = secondRDD.map(someFunction); 是否第一，第二和第三RDD存储值在RAM或者当我们像result = thirdRDD.count()最终thi

-1热度

1回答

pyspark地图用户定义的函数编写外脚本

我使用Python 2.7使用pyspark不工作时，我使用一个用户定义的函数，它工作得很好，当我使用它像这样 def func(x): pass RDD.map(lambda x:func(x)) 但是当我创建另一个脚本调用utils的内部功能和使用 from utils import func as func RDD.map(lambda x:func(x)) 我得到

1热度

1回答

星火/斯卡拉：使用采用RDD只</p> <p>我想创建嵌套结构只使用RDD ReduceByKey创建嵌套结构：采用RDD使用仅

星火/斯卡拉ReduceByKey创建嵌套结构。我可以使用groupBy函数来执行此操作，但对于大数据来说效果不佳。所以我想用reduceByKey来做，但我无法得到我想要的。任何帮助，将不胜感激。输入数据： val sales=sc.parallelize(List( ("West", "Apple", 2.0, 10), ("West", "Apple", 3.0, 15)