得到一个数组类型列的不同元素的火花数据帧

我有FEAT1和FEAT2 3列名为ID，一个数据帧。 FEAT1和FEAT2是字符串数组的形式：得到一个数组类型列的不同元素的火花数据帧

Id, feat1,feat2 
------------------ 
1, ["feat1_1","feat1_2","feat1_3"],[] 

2, ["feat1_2"],["feat2_1","feat2_2"] 

3,["feat1_4"],["feat2_3"]

我想每个功能柱内不同元素的列表，所以输出将是：

distinct_feat1,distinct_feat2 
----------------------------- 
["feat1_1","feat1_2","feat1_3","feat1_4"],["feat2_1","feat2_2","feat2_3]

在Scala中做这件事的最好方法是什么？

来源

2016-06-14 Masoud Tavazoei

在每列应用explode函数后，您可以使用collect_set查找相应列的不同值，以取消每个单元格中的数组元素。假设你的数据帧被称为df：

import org.apache.spark.sql.functions._ 

val distinct_df = df.withColumn("feat1", explode(col("feat1"))). 
        withColumn("feat2", explode(col("feat2"))). 
        agg(collect_set("feat1").alias("distinct_feat1"), 
         collect_set("feat2").alias("distinct_feat2")) 

distinct_df.show 
+--------------------+--------------------+ 
|  distinct_feat1|  distinct_feat2| 
+--------------------+--------------------+ 
|[feat1_1, feat1_2...|[, feat2_1, feat2...| 
+--------------------+--------------------+ 


distinct_df.take(1) 
res23: Array[org.apache.spark.sql.Row] = Array([WrappedArray(feat1_1, feat1_2, feat1_3, feat1_4), 
               WrappedArray(, feat2_1, feat2_2, feat2_3)])

来源

2016-06-14 03:10:19 Psidom

感谢Psidom为您的回应。它的确如你所说的那样工作。如果事先不知道功能列的数量，您能否想到一个不需要硬编码的解决方案？ –

你如何用SparkR做这件事？ – nate

@MasoudTavazoei有点晚了，但你看到我的答案是一个适用于非硬编码值的版本。 –

由Psidom提供的方法的伟大工程，在这里是不会给出一个数据帧和字段列表相同的功能：

def array_unique_values(df, fields): 
    from pyspark.sql.functions import col, collect_set, explode 
    from functools import reduce 
    data = reduce(lambda d, f: d.withColumn(f, explode(col(f))), fields, df) 
    return data.agg(*[collect_set(f).alias(f + '_distinct') for f in fields])

然后：

data = array_unique_values(df, my_fields) 
data.take(1)

来源

2017-12-04 20:51:32

得到一个数组类型列的不同元素的火花数据帧

回答

相关问题