2016-04-30 37 views
1

我是Python新手。我想知道我的数据框中的哪一列有最大的缺失值。假设我们有5行1000列。
例如使用Pandas查找具有最大缺失值的列

C1 C2 ... C1000 
10 21 ... NaN 
NaN 45 ... 29 
15 21 ... NaN 
21 NaN ... 27 
61 NaN ... NaN 

C1000具有最大的缺失值。所以我的代码应该返回列名“C1000”

回答

3

您可以使用df.count().idxmin()df.count()返回具有非NA/null观测数的系列。而且,idxmin会为您提供大多数非NA /空值的列。

In [12]: df 
Out[12]: 
    C1 C2 C1000 
0 10.0 21.0 NaN 
1 NaN 45.0 29.0 
2 15.0 21.0 NaN 
3 21.0 NaN 27.0 
4 61.0 NaN NaN 

In [13]: df.count() 
Out[13]: 
C1  4 
C2  3 
C1000 2 
dtype: int64 

In [14]: df.count().idxmin() 
Out[14]: 'C1000'