2017-05-24 226 views
0

我有一个数据框,并且想要将所有具有NULL值的行放在其中一列(字符串)中。我可以很容易地得到的计数:如何在一列中删除具有空值的行pyspark

df.filter(df.col_X.isNull()).count() 

我已经尝试使用下面的命令将其删除。它执行但计数仍然返回正面

df.filter(df.col_X.isNull()).drop() 

我试过不同的尝试,但它返回'对象不可调用'错误。

回答

4

数据帧是不可变的。所以只需应用删除非空值的过滤器将创建一个新的数据帧,该数据帧不会具有空值的记录。

df = df.filter(df.col_X. isNotNull()) 
4

二者必选其一dropsubset

df.na.drop(subset=["col_X"]) 

is_NotNull

df.filter(df.col_X.isNotNull()) 
相关问题