rdd

    0热度

    2回答

    我使用上Pyspark以下代码导入从BigQuery资料: table_data = sc.newAPIHadoopRDD( 'com.google.cloud.hadoop.io.bigquery.JsonTextBigQueryInputFormat', 'org.apache.hadoop.io.LongWritable', 'com.google.gson.Js

    1热度

    1回答

    我无法找到答案。 如果我有RDD rdd = sc.parallelize([('a', [1,2,3]), ('b',[4,5,6])]) 其中每个值都是一个列表。 有没有方法可以拆分RDD,使得它成为 sc.parallelize([('a',1),('a',2),('a',3),('b',4),('b',5),('b'6)]) 现在在哪里每个值是列表的元素之一,搭配的关键。 我大致知

    0热度

    3回答

    我有一个RDD看起来像这样 [(3,6,7), (2,5,7), (4,3,7)] 我想获得的平均第一要素,以及第二个元素之和的总和第三要素。这是输出是什么样子: (3,14,21) 是否有可能做到这一点使用pyspark?

    1热度

    2回答

    我有一个按键(index:Int)分组的RDD [(Int,Iterable [Coordinates])]]。坐标与成员等级: latitude: Double, longitude: Double 我想创建打印或创建一个CSV文件,这将是以下形式(每个数据点的行): index,latitude,longitude 随着非分组RDD [(智力,坐标),它的工作是这样的: val textO

    0热度

    1回答

    有两种RDDS,第一个是一个(键,值)对rdd_1: key1,[value1, value2] 第二个也是(键,值)对rdd_2: (key2, value3), (key3, value4)... 我想加盟rdd1和rdd2和rdd_1的value1 & value2为的。我需要的结果是 key1, [value1: value3, value2: value4] 我可以处理rdd

    1热度

    1回答

    我正在使用Spark RDD。我需要追加/连接两个类型为Set的RDD。 scala> var ek: RDD[Set[Int]] = sc.parallelize(Seq(Set(7))) ek: org.apache.spark.rdd.RDD[Set[Int]] = ParallelCollectionRDD[31] at parallelize at <console>:32 sca

    0热度

    2回答

    我想实现扁平化利用火花/斯卡拉API记录的逻辑拉平记录。我正在尝试使用地图功能。 能否请你帮我解决这个问题最简单的方法? 假设,对于一个给定钥匙我需要有3个过程代码 输入数据帧 - > Keycol|processcode John |1 Mary |8 John |2 John |4 Mary |1 Mary |7 ================= =============

    0热度

    2回答

    我读了reducebyKey对大数据集来说是一个更好的选择,可以减少数据的混洗,并以这种方式提高性能。我想转换我的使用groupByKey。首先,它必须被转换为RDD: val linksNew = links.map(convertToRelationship) .flatMap(bidirRelationship) 链接是一个数据集和数据集的API没有reduceByKey。当使

    -1热度

    1回答

    我试图将RDD(key,value)转换为RDD(key,iterable[value]),与groupByKey方法返回的输出相同。 但由于groupByKey效率不高,我试图在RDD上使用combineByKey,但它不起作用。下面是使用的代码: val data= List("abc,2017-10-04,15.2", "abc,2017-10-03,19.67",

    0热度

    1回答

    我有下面的RDD。 [[1,101,001,100,product1], [2,102,001,105,product2], [3,103,002,101,product3]] 预期成果是在度假心情 [('001', ['product1','100'],['product2','105']),('002',['product3','101'])]