2016-06-14 65 views
1

我有一个sql数据帧df并且有一列user_id,我该如何过滤数据帧并只保留user_id对于进一步分析实际上是空的?从pyspark模块页面here,可以轻松地删除na行,但没有说明如何做相反的事情。pyspark sql数据帧只保留为空

尝试df.filter(df.user_id == 'null'),但结果是0列。也许它正在寻找一个字符串“null”。此外,因为它是寻找一个名为“空”

回答

2

变量df.filter(df.user_id == null)将无法​​正常工作尝试

df.filter(df.user_id.isNull())