1
我有FEAT1和FEAT2 3列名为ID,一个数据帧。 FEAT1和FEAT2是字符串数组的形式:得到一个数组类型列的不同元素的火花数据帧
Id, feat1,feat2
------------------
1, ["feat1_1","feat1_2","feat1_3"],[]
2, ["feat1_2"],["feat2_1","feat2_2"]
3,["feat1_4"],["feat2_3"]
我想每个功能柱内不同元素的列表,所以输出将是:
distinct_feat1,distinct_feat2
-----------------------------
["feat1_1","feat1_2","feat1_3","feat1_4"],["feat2_1","feat2_2","feat2_3]
在Scala中做这件事的最好方法是什么?
感谢Psidom为您的回应。它的确如你所说的那样工作。如果事先不知道功能列的数量,您能否想到一个不需要硬编码的解决方案? –
你如何用SparkR做这件事? – nate
@MasoudTavazoei有点晚了,但你看到我的答案是一个适用于非硬编码值的版本。 –