从熊猫系列中删除零点的最快方法

我在excel文件（> 15 MB）的几个工作表中阅读，其中每个工作表具有> 10000列。第二，我选择一个列（仅包含整数），从此列中删除所有值== 0，并将此列写入新的df2。此外，我计算描述性统计。从熊猫系列中删除零点的最快方法

的数据是这样的：

Gel.Menge Erf.datum  Freig. 
0   0.0 26.11.2014 26.11.2014 
1  10.0 06.11.2014 07.11.2014 
2   5.0 19.12.2014 08.01.2015 
3   7.0 07.07.2015 17.07.2015 
4   0.0 21.07.2015 22.07.2015 
5   5.0 18.03.2016 22.03.2016 
6  10.0 29.03.2016 31.03.2016 
7   0.0 20.07.2016 21.07.2016 
8  20.0 13.10.2016 17.10.2016 
9   0.0 01.12.2014 01.12.2014 
10  0.0 20.04.2015 20.04.2015

我使用的代码是：

inpath=r"P:\Data.xlsx" 

df1=pd.DataFrame() 

for i in ["67059070","67059075","67060055","Screwing Total"]: 
    df=pd.read_excel(io=inpath,header=0,sheetname="{0}".format(i)) 
    df1["Gel.Menge"]=df["Gel.Menge"].where(df["Gel.Menge"]!=0).dropna() 
    print(np.round(df1.mode()))  
    print(np.round(df1.describe())

不幸的是这个代码是超级慢... 有没有做到这一点更快的方法？

来源

2017-09-28 2Obe

够做'DF [DF [ “Gel.Menge”]！= 0]' –

或者'df.query（ “Gel.Menge！= 0” ）'，或'DF [df.eval（ “Gel.Menge！= 0”）]' –

我错过的采样数据。所有的上述评论会使一个很好的答案。 – Dark

取自here的数据并修改。

df 

    Gel.Menge Erf.datum  Freig. 
0   0.0 26.11.2014 26.11.2014 
1  10.0 06.11.2014 07.11.2014 
2   5.0 19.12.2014 08.01.2015 
3   7.0 07.07.2015 17.07.2015 
4   0.0 21.07.2015 22.07.2015 
5   5.0 18.03.2016 22.03.2016 
6  10.0 29.03.2016 31.03.2016 
7   0.0 20.07.2016 21.07.2016 
8  20.0 13.10.2016 17.10.2016 
9   0.0 01.12.2014 01.12.2014 
10  0.0 20.04.2015 20.04.2015

选项1
boolean indexing

df[df['Gel.Menge'] != 0] 

    Gel.Menge Erf.datum  Freig. 
1  10.0 06.11.2014 07.11.2014 
2  5.0 19.12.2014 08.01.2015 
3  7.0 07.07.2015 17.07.2015 
5  5.0 18.03.2016 22.03.2016 
6  10.0 29.03.2016 31.03.2016 
8  20.0 13.10.2016 17.10.2016

选项2
np.where

m = np.where(df['Gel.Menge'], True, False) 
m 
array([False, True, True, True, False, True, True, False, True, 
     False, False], dtype=bool) 

df[m] 

    Gel.Menge Erf.datum  Freig. 
1  10.0 06.11.2014 07.11.2014 
2  5.0 19.12.2014 08.01.2015 
3  7.0 07.07.2015 17.07.2015 
5  5.0 18.03.2016 22.03.2016 
6  10.0 29.03.2016 31.03.2016 
8  20.0 13.10.2016 17.10.2016

选项3
df.query

c = df['Gel.Menge'] 
df.query('@c != 0') 

    Gel.Menge Erf.datum  Freig. 
1  10.0 06.11.2014 07.11.2014 
2  5.0 19.12.2014 08.01.2015 
3  7.0 07.07.2015 17.07.2015 
5  5.0 18.03.2016 22.03.2016 
6  10.0 29.03.2016 31.03.2016 
8  20.0 13.10.2016 17.10.2016

选项4
df.eval

df[df.eval('@c != 0')] 

    Gel.Menge Erf.datum  Freig. 
1  10.0 06.11.2014 07.11.2014 
2  5.0 19.12.2014 08.01.2015 
3  7.0 07.07.2015 17.07.2015 
5  5.0 18.03.2016 22.03.2016 
6  10.0 29.03.2016 31.03.2016 
8  20.0 13.10.2016 17.10.2016

注：两个步骤是必要的query和eval由于与处理列名的限制。

选项5
astype(bool)

df[df['Gel.Menge'].astype(bool)] 

    Gel.Menge Erf.datum  Freig. 
1  10.0 06.11.2014 07.11.2014 
2  5.0 19.12.2014 08.01.2015 
3  7.0 07.07.2015 17.07.2015 
5  5.0 18.03.2016 22.03.2016 
6  10.0 29.03.2016 31.03.2016 
8  20.0 13.10.2016 17.10.2016

性能

print(df.shape) 
(110000, 3)

100 loops, best of 3: 2.4 ms per loop

100 loops, best of 3: 2.36 ms per loop

100 loops, best of 3: 4.79 ms per loop

100 loops, best of 3: 4.97 ms per loop

100 loops, best of 3: 2.08 ms per loop

来源

2017-09-28 08:33:26

那么，什么是最快的方法是什么？ – Zero

@Zero我是对的。选项5是最快，其次是2,1，3和4。 –

从熊猫系列中删除零点的最快方法

回答

相关问题