如何从数据帧列成火花列表

我有一个DataFrame有80列，我需要得到他们12集合，要么Array或List是好的。我做了一点谷歌，并发现这一点：如何从数据帧列成火花列表

dataFrame.select("YOUR_COLUMN_NAME").rdd.map(r => r(0)).collect()

问题是，这适用于一列。如果我做df.select(col1,col2,col3...).rdd.map.collect()，那么它给了我这样的东西：Array[[col1,col2,col3]]。

我想要的是Array[[col1],[col2],[col3]]。有没有办法在Spark中做到这一点？

在此先感谢。

UPDATE

比如我有一个数据帧：

---------- 
A B C 
---------- 
1 2 3 
4 5 6

我需要的列到这个格式：

Array[[1,4],[2,5],[3,6]]

希望这是更清晰...对不起

来源

2017-07-24 Anna

你可以得到Array[Array[Any]]通过执行以下操作

scala> df.select("col1", "col2", "col3", "col4").rdd.map(row => (Array(row(0)), Array(row(1)), Array(row(2)), Array(row(3)))) 
res6: org.apache.spark.rdd.RDD[(Array[Any], Array[Any], Array[Any], Array[Any])] = MapPartitionsRDD[34] at map at <console>:32

RDD就像是一个Array所以你需要阵列的上方。如果你想RDD[Array[Array[Any]]]那么你可以做

scala> df.select("col1", "col2", "col3", "col4").rdd.map(row => Array(Array(row(0)), Array(row(1)), Array(row(2)), Array(row(3)))) 
res7: org.apache.spark.rdd.RDD[Array[Array[Any]]] = MapPartitionsRDD[39] at map at <console>:32

您可以继续以同样的方式为你的12列

更新

你更新的问题更加清晰。因此，在转换为rdd之前，您可以使用collect_list函数，并像以前一样继续。

scala> import org.apache.spark.sql.functions._ 
import org.apache.spark.sql.functions._ 

scala> val rdd = df.select(collect_list("col1"), collect_list("col2"), collect_list("col3"), collect_list("col4")).rdd.map(row => Array(row(0), row(1), row(2), row(3))) 
rdd: org.apache.spark.rdd.RDD[Array[Any]] = MapPartitionsRDD[41] at map at <console>:36 

scala> rdd.map(array => array.map(element => println(element))).collect 
[Stage 11:>               (0 + 0)/2]WrappedArray(1, 1) 
WrappedArray(2, 2) 
WrappedArray(3, 3) 
WrappedArray(4, 4) 
res8: Array[Array[Unit]] = Array(Array((),(),(),()))

数据帧只

你可以做所有这些在数据帧本身并不需要转换为RDD

因为你有数据帧作为

scala> df.show(false) 
+----+----+----+----+----+----+ 
|col1|col2|col3|col4|col5|col6| 
+----+----+----+----+----+----+ 
|1 |2 |3 |4 |5 |6 | 
|1 |2 |3 |4 |5 |6 | 
+----+----+----+----+----+----+

您可以简单地执行以下操作：

scala> import org.apache.spark.sql.functions._ 
import org.apache.spark.sql.functions._ 

scala> df.select(array(collect_list("col1"), collect_list("col2"), collect_list("col3"), collect_list("col4")).as("collectedArray")).show(false) 
+--------------------------------------------------------------------------------+ 
|collectedArray                 | 
+--------------------------------------------------------------------------------+ 
|[WrappedArray(1, 1), WrappedArray(2, 2), WrappedArray(3, 3), WrappedArray(4, 4)]| 
+--------------------------------------------------------------------------------+

来源

2017-07-24 17:43:41

嗯，两条线之间有什么区别...？他们都给我RDD数组，我怎么得到数组[数组]？ – Anna

我的不好:)我粘贴上一步。我已更新请检查 –

我没有找到更新:(？他们仍然看起来都像rdd阵列给我 – Anna

如何从数据帧列成火花列表

回答

相关问题