2017-09-28 26 views
0

我在excel文件(> 15 MB)的几个工作表中阅读,其中每个工作表具有> 10000列。第二,我选择一个列(仅包含整数),从此列中删除所有值== 0,并将此列写入新的df2。此外,我计算描述性统计。从熊猫系列中删除零点的最快方法

的数据是这样的:

Gel.Menge Erf.datum  Freig. 
0   0.0 26.11.2014 26.11.2014 
1  10.0 06.11.2014 07.11.2014 
2   5.0 19.12.2014 08.01.2015 
3   7.0 07.07.2015 17.07.2015 
4   0.0 21.07.2015 22.07.2015 
5   5.0 18.03.2016 22.03.2016 
6  10.0 29.03.2016 31.03.2016 
7   0.0 20.07.2016 21.07.2016 
8  20.0 13.10.2016 17.10.2016 
9   0.0 01.12.2014 01.12.2014 
10  0.0 20.04.2015 20.04.2015 

我使用的代码是:

inpath=r"P:\Data.xlsx" 

df1=pd.DataFrame() 

for i in ["67059070","67059075","67060055","Screwing Total"]: 
    df=pd.read_excel(io=inpath,header=0,sheetname="{0}".format(i)) 
    df1["Gel.Menge"]=df["Gel.Menge"].where(df["Gel.Menge"]!=0).dropna() 
    print(np.round(df1.mode()))  
    print(np.round(df1.describe()) 

不幸的是这个代码是超级慢... 有没有做到这一点更快的方法?

+0

够做'DF [DF [ “Gel.Menge”]!= 0]' –

+1

或者'df.query( “Gel.Menge!= 0” )',或'DF [df.eval( “Gel.Menge!= 0”)]' –

+0

我错过的采样数据。所有的上述评论会使一个很好的答案。 – Dark

回答

1

取自here的数据并修改。

df 

    Gel.Menge Erf.datum  Freig. 
0   0.0 26.11.2014 26.11.2014 
1  10.0 06.11.2014 07.11.2014 
2   5.0 19.12.2014 08.01.2015 
3   7.0 07.07.2015 17.07.2015 
4   0.0 21.07.2015 22.07.2015 
5   5.0 18.03.2016 22.03.2016 
6  10.0 29.03.2016 31.03.2016 
7   0.0 20.07.2016 21.07.2016 
8  20.0 13.10.2016 17.10.2016 
9   0.0 01.12.2014 01.12.2014 
10  0.0 20.04.2015 20.04.2015 

选项1
boolean indexing

df[df['Gel.Menge'] != 0] 

    Gel.Menge Erf.datum  Freig. 
1  10.0 06.11.2014 07.11.2014 
2  5.0 19.12.2014 08.01.2015 
3  7.0 07.07.2015 17.07.2015 
5  5.0 18.03.2016 22.03.2016 
6  10.0 29.03.2016 31.03.2016 
8  20.0 13.10.2016 17.10.2016 

选项2
np.where

m = np.where(df['Gel.Menge'], True, False) 
m 
array([False, True, True, True, False, True, True, False, True, 
     False, False], dtype=bool) 

df[m] 

    Gel.Menge Erf.datum  Freig. 
1  10.0 06.11.2014 07.11.2014 
2  5.0 19.12.2014 08.01.2015 
3  7.0 07.07.2015 17.07.2015 
5  5.0 18.03.2016 22.03.2016 
6  10.0 29.03.2016 31.03.2016 
8  20.0 13.10.2016 17.10.2016 

选项3
df.query

c = df['Gel.Menge'] 
df.query('@c != 0') 

    Gel.Menge Erf.datum  Freig. 
1  10.0 06.11.2014 07.11.2014 
2  5.0 19.12.2014 08.01.2015 
3  7.0 07.07.2015 17.07.2015 
5  5.0 18.03.2016 22.03.2016 
6  10.0 29.03.2016 31.03.2016 
8  20.0 13.10.2016 17.10.2016 

选项4
df.eval

df[df.eval('@c != 0')] 

    Gel.Menge Erf.datum  Freig. 
1  10.0 06.11.2014 07.11.2014 
2  5.0 19.12.2014 08.01.2015 
3  7.0 07.07.2015 17.07.2015 
5  5.0 18.03.2016 22.03.2016 
6  10.0 29.03.2016 31.03.2016 
8  20.0 13.10.2016 17.10.2016 

:两个步骤是必要的queryeval由于与处理列名的限制。


选项5
astype(bool)

df[df['Gel.Menge'].astype(bool)] 

    Gel.Menge Erf.datum  Freig. 
1  10.0 06.11.2014 07.11.2014 
2  5.0 19.12.2014 08.01.2015 
3  7.0 07.07.2015 17.07.2015 
5  5.0 18.03.2016 22.03.2016 
6  10.0 29.03.2016 31.03.2016 
8  20.0 13.10.2016 17.10.2016 

性能

print(df.shape) 
(110000, 3) 
100 loops, best of 3: 2.4 ms per loop
100 loops, best of 3: 2.36 ms per loop
100 loops, best of 3: 4.79 ms per loop
100 loops, best of 3: 4.97 ms per loop
100 loops, best of 3: 2.08 ms per loop
+0

那么,什么是最快的方法是什么? – Zero

+0

@Zero我是对的。选项5是最快,其次是2,1,3和4。 –