rdd

    0热度

    2回答

    我有一个Spark独立群集,有2个工作节点和1个主节点。 使用spark-shell,我能够从本地文件系统的文件中读取数据,然后做了一些转换并将最终的RDD保存在/ home/output中(假设) RDD已成功保存,但仅在一个工人节点和主节点上只有_SUCCESS文件在那里。 现在,如果我想从/ home/output读取这个输出数据,我没有收到任何数据,因为它在master上获得0数据,然后我

    0热度

    1回答

    我正在与的RDD一起工作,它叫做file。 #values: RDD of tuples (key, val) file = values.groupByKey().mapValues(set).cache() info_file = array(file.map(lambda (x,y): len(y)).collect()) var = np.var(info_file) #extre

    -1热度

    1回答

    关键的数据我怎么能在Scala中实现这一 val a = sc.parallelize(List(("a", "aaa$$bbb"), ("b", ("ccc$$ddd$$eee")))) val res1 = a.mapValues(_.replaceAll("\\$\\$", "-")) 这里我有数组[(字符串,字符串)] Array[(String, String)] = Array(

    0热度

    1回答

    我已经从常见抓取下载了warc.gz文件,我必须使用spark来处理它。如何将文件转换为RDD? sc.textFile("filepath")似乎没有帮助。 当rdd.take(1)被打印时,它给了我[u'WARC/1.0'],而它应该给我一个完整的记录。我如何将文件转换为可处理的rdd?谢谢!

    0热度

    1回答

    我有一个pyspark RDD(myRDD),该ID的可变长度列表,如 [['a', 'b', 'c'], ['d','f'], ['g', 'h', 'i','j']] 我有一个pyspark数据帧(myDF)列ID和value。 我想查询myDF与查询: outputDF = myDF.select(F.collect_set("value")).alias("my_values").wh

    1热度

    1回答

    clickRdd中的元素是(h5id,[query]),其中h5id是一个长整数,查询是一个字符串; revealRdd中的元素是(h5id, [0:id, 1:query, 2:q0, 3:q1, 4:q2, 5:q3, 6:s0, 7:s1, 8:s2, 9:s3]). 和clickJoin = clickRdd.join(revealRdd)的结果是什么,我猜连接键是h5id。 加入后任何人

    0热度

    1回答

    我试图将JDBC ResultSet转换为Spark RDD,并且正在寻找一种使用Spark的并行性特性来执行此操作的有效方法。 下面是我已按本https://stackoverflow.com/a/32073423/6064131 val rs:ResultSet = stmt .getResultSet val colCount = rs.getMetaData.getColumnCount

    0热度

    2回答

    虽然这样做对RDD的转换,例如: - firstRDD=spark.textFile("hdfs://...") secondRDD=firstRDD.filter(someFunction); thirdRDD = secondRDD.map(someFunction); 是否第一,第二和第三RDD存储值在RAM或者当我们像result = thirdRDD.count()最终thi

    -1热度

    1回答

    我使用Python 2.7使用pyspark不工作时, 我使用一个用户定义的函数,它工作得很好,当我使用它像这样 def func(x): pass RDD.map(lambda x:func(x)) 但是当我创建另一个脚本调用utils的内部功能和使用 from utils import func as func RDD.map(lambda x:func(x)) 我得到

    1热度

    1回答

    星火/斯卡拉ReduceByKey创建嵌套结构。我可以使用groupBy函数来执行此操作,但对于大数据来说效果不佳。所以我想用reduceByKey来做,但我无法得到我想要的。任何帮助,将不胜感激。 输入数据: val sales=sc.parallelize(List( ("West", "Apple", 2.0, 10), ("West", "Apple", 3.0, 15)