2016-02-29 97 views
4

我正在寻找一种方法来优化我的代码。从数据框中的列中提取字典值

我有条目数据以这种形式:

import pandas as pn 

a=[{'Feature1': 'aa1','Feature2': 'bb1','Feature3': 'cc2' }, 
{'Feature1': 'aa2','Feature2': 'bb2' }, 
{'Feature1': 'aa1','Feature2': 'cc1' } 
] 
b=['num1','num2','num3'] 


df= pn.DataFrame({'num':b, 'dic':a }) 

我想在上述数据帧列“DIC”(如果存在的话)从词典中提取元件“特征3”。到目前为止,我能够解决它,但我不知道这是否是最快的方式,它似乎有点过于复杂。

Feature3=[] 
for idx, row in df['dic'].iteritems(): 
    l=row.keys() 

    if 'Feature3' in l: 
     Feature3.append(row['Feature3']) 
    else: 
     Feature3.append(None) 

df['Feature3']=Feature3 
print df 

是否有更好/更快/更简单的方法提取此Feature3以分隔数据框中的列?

非常感谢您的帮助。

+0

还有就是要检查这是你存储在您的DF非标量值没有向量化的方法,这是不明智的,因为它它使过滤和查找困难,因为你发现 – EdChum

回答

4

您可以使用列表理解从数据框的每一行中提取特征3,并返回一个列表。

feature3 = [d.get('Feature3') for d in df.dic] 

如果'Feature3'不在dic中,默认返回None。

你甚至不需要熊猫。

feature3 = [d.get('Feature3') for d in a] 
+0

这当然是一个非常“pythonic”的方式来做到这一点......并超过熊猫解决方案一个数量级 – maxymoo

1

我觉得你可以先通过comprehension创造新DataFrame然后像创建新列:

df1 = pd.DataFrame([x for x in df['dic']]) 
print df1 
    Feature1 Feature2 Feature3 
0  aa1  bb1  cc2 
1  aa2  bb2  NaN 
2  aa1  cc1  NaN 

df['Feature3'] = df1['Feature3'] 
print df 
               dic num Feature3 
0 {u'Feature2': u'bb1', u'Feature3': u'cc2', u'F... num1  cc2 
1   {u'Feature2': u'bb2', u'Feature1': u'aa2'} num2  NaN 
2   {u'Feature2': u'cc1', u'Feature1': u'aa1'} num3  NaN 

或者一个行:

df['Feature3'] = pd.DataFrame([x for x in df['dic']])['Feature3'] 
print df 
               dic num Feature3 
0 {u'Feature2': u'bb1', u'Feature3': u'cc2', u'F... num1  cc2 
1   {u'Feature2': u'bb2', u'Feature1': u'aa2'} num2  NaN 
2   {u'Feature2': u'cc1', u'Feature1': u'aa1'} num3  NaN 

时序

len(df) = 3

In [24]: %timeit pd.DataFrame([x for x in df['dic']]) 
The slowest run took 4.63 times longer than the fastest. This could mean that an intermediate result is being cached 
1000 loops, best of 3: 596 µs per loop 

In [25]: %timeit df.dic.apply(pn.Series) 
1000 loops, best of 3: 1.43 ms per loop 

len(df) = 3000

In [27]: %timeit pd.DataFrame([x for x in df['dic']]) 
100 loops, best of 3: 3.16 ms per loop 

In [28]: %timeit df.dic.apply(pn.Series) 
1 loops, best of 3: 748 ms per loop 
2

如果apply一个Series,你会得到一个相当不错的DataFrame

>>> df.dic.apply(pn.Series) 
    Feature1 Feature2 Feature3 
0 aa1 bb1 cc2 
1 aa2 bb2 NaN 
2 aa1 cc1 NaN 

从这一点,你可以使用普通的熊猫操作。

1

我想你在考虑数据结构有点不对。最好从一开始就创建具有列作为列的数据框;熊猫实际上是足够聪明,在默认情况下做到这一点:

In [240]: pd.DataFrame(a) 
Out[240]: 
    Feature1 Feature2 Feature3 
0  aa1  bb1  cc2 
1  aa2  bb2  NaN 
2  aa1  cc1  NaN 

这样,你会增加您的“编号”列在单独的步骤,因为数据是在一个不同的方向,无论是与

df['num'] = b 

df = df.assign(num = b) 

(我更喜欢第二个选项,因为它具有更多功能的味道)。

2
df['Feature3'] = df['dic'].apply(lambda x: x.get('Feature3')) 

同意maxymoo。考虑改变数据帧的格式。

(旁注:大熊猫一般进口为PD)