2014-01-09 55 views
11

我知道如何在两个熊猫数据帧之间进行逐元素乘法。但是,当两个数据框的尺寸不兼容时,情况会变得更加复杂。例如下面df * df2很简单,但df * df3一个问题:熊猫:两个数据帧的元素相乘

df = pd.DataFrame({'col1' : [1.0] * 5, 
        'col2' : [2.0] * 5, 
        'col3' : [3.0] * 5 }, index = range(1,6),) 
df2 = pd.DataFrame({'col1' : [10.0] * 5, 
        'col2' : [100.0] * 5, 
        'col3' : [1000.0] * 5 }, index = range(1,6),) 
df3 = pd.DataFrame({'col1' : [0.1] * 5}, index = range(1,6),) 

df.mul(df2, 1) # element by element multiplication no problems 

df.mul(df3, 1) # df(row*col) is not equal to df3(row*col) 
    col1 col2 col3 
1 0.1 NaN NaN 
2 0.1 NaN NaN 
3 0.1 NaN NaN 
4 0.1 NaN NaN 
5 0.1 NaN NaN 

在上述情况下,我怎么能乘以df3.​​col1 DF的每列?

我尝试:我试图复制df3.col1len(df.columns.values)次得到一个数据帧是相同的尺寸df的:

df3 = pd.DataFrame([df3.col1 for n in range(len(df.columns.values)) ]) 
df3 
     1 2 3 4 5 
col1 0.1 0.1 0.1 0.1 0.1 
col1 0.1 0.1 0.1 0.1 0.1 
col1 0.1 0.1 0.1 0.1 0.1 

但是这造成尺寸3 * 5的数据帧,而我5 * 3后。我知道我可以用df3.T()转置来获得我需要的东西,但我认为这不是最快的方法。

回答

22
In [161]: pd.DataFrame(df.values*df2.values, columns=df.columns, index=df.index) 
Out[161]: 
    col1 col2 col3 
1 10 200 3000 
2 10 200 3000 
3 10 200 3000 
4 10 200 3000 
5 10 200 3000 
+0

谢谢unutbu。'pd.DataFrame(df.values * df3.values,columns = df.columns,index = df.index)'也保留索引,对吧? – Rhubarb

+0

是的,没错。 – unutbu

1

另一种方法是创建列的列表,并加入他们的行列:

cols = [pd.DataFrame(df[col] * df3.col1, columns=[col]) for col in df] 
mul = cols[0].join(cols[1:]) 
7

更简单的方法做,这是刚刚乘你想保持的价值观,其colnames数据帧(即numpy的阵列)的其他,如下所示:

In [63]: df * df2.values 
Out[63]: 
    col1 col2 col3 
1 10 200 3000 
2 10 200 3000 
3 10 200 3000 
4 10 200 3000 
5 10 200 3000 

这样您就不必编写所有新的数据框样板文件。

1

这个工作对我来说:

mul = df.mul(df3.c, axis=0) 

或者,当你想减(分),而不是:

sub = df.sub(df3.c, axis=0) 
div = df.div(df3.c, axis=0) 

作品也有nan在DF(例如,如果您将此到df:df.iloc[0]['col2'] = np.nan)