我有一个火花数据帧是这样的:如何扁平pySpark数据框?
id | Operation | Value |
--------------------------
1 | Date_Min | 148590 |
1 | Date_Max | 148590 |
1 | Device | iphone |
2 | Date_Min | 148590 |
2 | Date_Max | 148590 |
2 | Review | Good |
3 | Date_Min | 148590 |
3 | Date_Max | 148590 |
3 | Review | Bad |
3 | Review | samsung|
我使用的Spark 2.1.0与pyspark:
id | Operation | Value
-----------------------------------------------------------
1 | [Date_Min, Date_Max, Device] | [148590, 148590, iphone]
2 | [Date_Min, Date_Max, Review] | [148590, 148590, Good]
3 | [Date_Min, Date_Max, Review, Device] | [148590, 148590, Bad,samsung]
,我期待resul。我试过这个solution,但它只适用于一列。
感谢
我仍然无法找出好办法做到这一点特定任务。我试图分开展开列'df1 = df.select('id',explode(col(“Operation”)))', 'df2 = df.select('id',explode(col(“Value”)) )'。但是,如何将两个数据框水平地堆叠在一起没有很好的解决方案。 – titipata