0
我正在使用用Python编写的Hive包装器将Hive数据拉入Python Jupyter笔记本中。我有TB级的数据如下所示:收藏集?
Table 1: time=t1
uid colA
1 A
1 B
1 C
2 A
2 B
3 C
3 D
我想从那个看起来像上面的数据创建一个新的数据框(PySpark /大熊猫):
Table 2: time=t1
uid colA
1 [A, B, C]
2 [A, B]
3 [C, D]
其中colA
将是一个列表的字符串。我将如何做到这一点?我已阅读过有关collect_set()的内容,但不熟悉它的使用或适用性。
创建Table 2
后,假设我有另一个表为time=t2
:现在
Table 3: time=t2
uid colA
1 [A, B]
2 [B]
3 [C, D, E]
,我想计算table 2
和table 3
之间的差集。它应该返回3,因为这是获得从表3至表2
那么,你有什么哟你试过了吗? –