熊猫计算两个不同索引的数据帧

有两个索引不同但具有匹配列的数据帧，我该如何计算它们之间的差异？熊猫计算两个不同索引的数据帧

例如，

df1 = pd.DataFrame({ 'a': (188, 750, 1330, 1385, 188, 750, 1330, 1385), 
        'b': (51.12, 51.45, 74.49, 29.21, 39.98, 3.98, 14.46, 16.51), 
        'c': pd.Categorical(['R', 'R', 'R', 'R', 'F', 'F', 'F', 'F']) }) 
df1 = df1.set_index(['a']) 

      b c 
a    
188 51.12 R 
750 51.45 R 
1330 74.49 R 
1385 29.21 R 
188 39.98 F 
750 3.98 F 
1330 14.46 F 
1385 16.51 F 


df2 = pd.DataFrame({ 'x': (20, 50), 
        'c': pd.Categorical(['R', 'F']) }) 
df2 = df2.set_index(['c']) 

    x 
c  
R 20 
F 50

我想利用b列的差在df1基于在df1柱c应df2匹配索引c病症的df2x。

结果会是这样的：

  b c diff 
a      
188 51.12 R 31.12 
750 51.45 R 31.45 
1330 74.49 R 54.49 
1385 29.21 R 9.21 
188 39.98 F -10.02 
750 3.98 F -46.02 
1330 14.46 F -35.54 
1385 16.51 F -33.49

来源

2017-06-12 PedroA

您可以使用join或map：

df1['diff'] = df1['b'] - df1.join(df2, on='c')['x'] 
print (df1) 
      b c diff 
a      
188 51.12 R 31.12 
750 51.45 R 31.45 
1330 74.49 R 54.49 
1385 29.21 R 9.21 
188 39.98 F -10.02 
750 3.98 F -46.02 
1330 14.46 F -35.54 
1385 16.51 F -33.49

或者：

df1['diff'] = df1['b'] - df1['c'].map(df2['x']) 
print (df1) 
      b c diff 
a      
188 51.12 R 31.12 
750 51.45 R 31.45 
1330 74.49 R 54.49 
1385 29.21 R 9.21 
188 39.98 F -10.02 
750 3.98 F -46.02 
1330 14.46 F -35.54 
1385 16.51 F -33.49

来源

2017-06-12 14:38:49 jezrael

是将这些方法也有一系列的工作，例如，如果DF2是一个系列，而不是一个数据帧。将Series转换为DataFrame并提供列名很容易，但我要求这是一个进一步的说明。 – PedroA

是的，这很容易。每列是“串联”的，例如， 'df2 ['x']'是'Series' – jezrael

df1.assign(diff = df1['b'] - df1['c'].map(df2.squeeze()))

输出：

  b c diff 
a      
188 51.12 R 31.12 
750 51.45 R 31.45 
1330 74.49 R 54.49 
1385 29.21 R 9.21 
188 39.98 F -10.02 
750 3.98 F -46.02 
1330 14.46 F -35.54 
1385 16.51 F -33.49

来源

2017-06-12 14:39:50

df1["diff"] = df1.apply(lambda x: x.b - df2.loc[x.c].values[0],axis=1)

来源

2017-06-12 14:40:01 Tbaki

熊猫计算两个不同索引的数据帧

回答

相关问题