0
在spark 1.5+中,如何将“n”-tuple RDD的每列写入不同位置?垂直分区RDD并写入不同的位置
例如,如果我有一个RDD[(String, String)]
我想的第一列被写入到s3://bucket/first-col
第二要s3://bucket/second-col
我可以做到以下几点
val pairRDD: RDD[(String, String)]
val cachedRDD = pairRDD.cache()
cachedRDD.map(_._1).saveAsTextFile("s3://bucket/first-col")
cachedRDD.map(_._2).saveAsTextFile("s3://bucket/second-col")
但很不理想,因为我需要通过RDD两次。你可以,你可以去这样做
如果你工作只用'Tuple2'就可以使用'pairRDD.keys'和'pairRDD.values' –