0
SparkSession.createDataset()
只允许List, RDD, or Seq
- 但它不支持JavaPairRDD
。如何将JavaPairRDD转换为数据集?
所以,如果我有一个JavaPairRDD<String, User>
,我想创建一个从Dataset
,会为SparkSession.createDataset()
限制的可行workround创建一个包装UserMap
类,它包含两个字段:String
和User
。
然后做spark.createDataset(userMap, Encoders.bean(UserMap.class));
?
在我的情况,我有很多的变换在'JavaPairRdd pairRDD ...'到达。所以如果我调用'pairRDD.collect()',所有'Dataset'优化都将丢失。 –
Glide