在python熊猫中删除DataFrame中的特定行

我有一个很大的.txt格式不正确的数据。我想删除一些行并将其余数据转换为浮点数。我愿与'X'或'XX'删除行，其余的我应该转换为浮动，像4;00.1数应转换为4.001文件看起来是这样的例子：在python熊猫中删除DataFrame中的特定行

0,1,10/09/2012,3:01,4;09.1,5,6,7,8,9,10,11 
1,-0.581586,11/09/2012,-1:93,0;20.3,739705,,0.892921,5,,6,7 
2,XX,10/09/2012,3:04,4;76.0,0.183095,-0.057214,-0.504856,NaN,0.183095,12 
3,-0.256051,10/09/2012,9:65,1;54.9,483293,0.504967,0.074442,-1.716287,7,0.504967,0.504967 
4,-0.728092,11/09/2012,0:78,1;53.4,232247,4.556,0.328062,1.382914,NaN,4.556,4 
5,4,11/09/2012,NaN,NaN,6.0008,NaN,NaN,NaN,6.000800,6.000000,6.000800 
6,X,11/09/2012,X,X,5,X,8,2,1,17.000000,33.000000 
7,,11/09/2012,,,,,,6.000000,5.000000,2.000000,2.000000 
8,4,11/09/2012,7:98,3;04.5,5,6,3,7.000000,3.000000,3.000000,2 
9,6,11/09/2012,2:21,4;67.2,5,2,2,7,3,8.000000,4.000000

我读得数据框，然后选择行

from pandas import * 
from csv import * 
fileName = '~/data.txt' 
colName = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l'] 
df = DataFrame(read_csv(fileName, names=colName)) 
print df[df['b'].isin(['X','XX',None,'NaN'])].to_string()

从去年最后一行的输出给了我唯一的：

>>> print df[df['b'].isin(['X','XX',None,'NaN'])].to_string() 
    b   c  d  e   f   g   h i   j k l 
a                     
2 XX 10/09/2012 3:04 4;76.0 0.183095 -0.057214 -0.504856 NaN 0.183095 12 NaN 
6 X 11/09/2012  X  X 5.000000   X 8.000000 2 1.000000 17 33

不拿起第7行，我想通过所有DF不仅一列（原始文件非常大）。

在转换时我使用如下，但需要首先删除不需要的行，将其应用到所有df。

convert1 = lambda x : x.replace('.', '') 
convert2 = lambda x : float(x.replace(';', '.')) 
newNumber = convert2(convert1(df['e'][0]))

选择行我想从DF删除后，我尝试df.pop()但它仅适用于列不是行。我尝试命名行但不运气。在这个特殊的.txt文件中，我应该使用行[0,3,8,9]作为日期格式的'c'列作为新的df，作为时间格式的'd'作为其他作为浮点格式。我试图找出相当长的一段时间，但不知道该往哪里移动，是否可以在熊猫（可能应该是），还是我需要更改为ndarray或其他任何东西？感谢您的建议

来源

2012-09-22 tomasz74

我作为一个新的用户，我想知道是什么这个问题是否被否决？ – tomasz74

原始过滤器的问题是它检查'NaN'而不是numpy.nan，这是默认情况下分析空字符串的原因。如果要过滤所有列，所以你只能得到行，其中没有元素是“X”或“XX”，做这样的事情：

In [45]: names = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l'] 

In [46]: df = pd.read_csv(StringIO(data), header=None, names=names) 

In [47]: mask = df.applymap(lambda x: x in ['X', 'XX', None, np.nan]) 

In [48]: df[-mask.any(axis=1)] 
Out[48]: 
<class 'pandas.core.frame.DataFrame'> 
Int64Index: 5 entries, 0 to 9 
Data columns: 
a 5 non-null values 
b 5 non-null values 
c 5 non-null values 
d 5 non-null values 
e 5 non-null values 
f 5 non-null values 
g 5 non-null values 
h 5 non-null values 
i 5 non-null values 
j 4 non-null values 
k 5 non-null values 
l 5 non-null values 
dtypes: float64(6), int64(1), object(5)

来源

2012-09-23 01:33:09

太好了。非常感谢 – tomasz74

在python熊猫中删除DataFrame中的特定行

回答

相关问题