2013-07-24 79 views
1

我在使用熊猫读取csv文件时遇到了一个问题。我有的CSV文件格式为:使用Python跳过csv文件中的行熊猫

Num Date  Value1 Value2 Value3 
1 7/29/11 1  2  3  
2 7/22/11 NA  3  1  
3 7/15/11 5  NA  NA 
4 7/6/11 -1  0  2 

我想用pandas来读取这个csv文件。但是,我需要跳过任何列条目为NA的行(在这种情况下,我需要跳过第2行和第3行)。

谢谢!

回答

2

由于@Rutger指出,你可以简单地使用dropna

In [11]: df.dropna(subset=['Value1', 'Value2', 'Value3']) 
Out[11]: 
    Num  Date Value1 Value2 Value3 
0 1 7/29/11  1  2  3 
3 4 7/6/11  -1  0  2 

最初的办法,我认为(这显然不是最优的),一旦你在阅读它作为一个数据帧就可以删除使用notnull(您想只保留这些都是notnull那些行)这些行:

In [21]: df.loc[:, ['Value1', 'Value2', 'Value3']].apply(pd.notnull) 
Out[21]: 
    Value1 Value2 Value3 
0 True True True 
1 False True True 
2 True False False 
3 True True True 

In [22]: df.loc[:, ['Value1', 'Value2', 'Value3']].apply(pd.notnull).all(1) 
Out[22]: 
0  True 
1 False 
2 False 
3  True 
dtype: bool 

而且只选择那些行:

In [23]: df[df.loc[:, ['Value1', 'Value2', 'Value3']].apply(pd.notnull).all(1)] 
Out[23]: 
    Num  Date Value1 Value2 Value3 
0 1 7/29/11  1  2  3 
3 4 7/6/11  -1  0  2 

In [24]: df = df[df.loc[:, ['Value1', 'Value2', 'Value3']].apply(pd.notnull).all(1)] 
+0

感谢安迪!这是完美的。 :) –

+2

是不是只相当于'df.dropna()'?如果您只想将'ValueX'列考虑在内,您可以使用'df.dropna(subset = ['Value1','Value2','Value3'])''。 –