2013-12-16 279 views
21

这可能是容易的,但我有以下数据:追加列大熊猫数据帧

在数据帧1:

index dat1 
0  9 
1  5 

在数据帧2:

index dat2 
0  7 
1  6 

我想具有以下形式的数据帧:

index dat1 dat2 
0  9  7 
1  5  6 

我试过使用append方法,但我得到了一个交叉连接(即笛卡尔积)。

什么是正确的方法来做到这一点?

+2

你尝试了'join'方法? – BrenBarn

+0

data_frame_1 ['dat2'] = data_frame_2 ['dat2'] – lowtech

+0

@lowtech:这是否确保索引正确配对? – BenDundee

回答

37

看来一般你只是在寻找一个联接:

> dat1 = pd.DataFrame({'dat1': [9,5]}) 
> dat2 = pd.DataFrame({'dat2': [7,6]}) 
> dat1.join(dat2) 
    dat1 dat2 
0  9  7 
1  5  6 
+3

或者'pd.concat([dat1,dat2],axis = 1)'在这种情况下。 – DSM

+0

这是“正确”的方式来做到这一点,所以圈子得到广场! – BenDundee

+0

@BenDundee Join和concat使用了很多相同的代码,所以当你考虑边缘情况时,“正确”的方式可能只是很重要。例如,如果这两个DataFrame都有一个'data'列,那么连接会失败*,而concat会给你两个名为'data'的列。 – U2EF1

1

恰到好处的谷歌搜索的问题:

data = dat_1.append(dat_2) 
data = data.groupby(data.index).sum() 
+11

这个页面是谷歌搜索出现的。 – denson

13

您还可以使用:

dat1 = pd.concat([dat1, dat2], axis=1) 
5

join()和concat()方式都可以解决这个问题。但是,我必须提到一个警告:如果尝试通过从另一个DataFrame中选择一些行来处理某些数据帧,请在重新加入连接或concat之前重置索引。下面

一个例子显示的加入,CONCAT一些有趣的行为:

dat1 = pd.DataFrame({'dat1': range(4)}) 
dat2 = pd.DataFrame({'dat2': range(4,8)}) 
dat1.index = [1,3,5,7] 
dat2.index = [2,4,6,8] 

# way1 join 2 DataFrames 
print(dat1.join(dat2)) 
# output 
    dat1 dat2 
1  0 NaN 
3  1 NaN 
5  2 NaN 
7  3 NaN 

# way2 concat 2 DataFrames 
print(pd.concat([dat1,dat2],axis=1)) 
#output 
    dat1 dat2 
1 0.0 NaN 
2 NaN 4.0 
3 1.0 NaN 
4 NaN 5.0 
5 2.0 NaN 
6 NaN 6.0 
7 3.0 NaN 
8 NaN 7.0 

#reset index 
dat1 = dat1.reset_index(drop=True) 
dat2 = dat2.reset_index(drop=True) 
#both 2 ways to get the same result 

print(dat1.join(dat2)) 
    dat1 dat2 
0  0  4 
1  1  5 
2  2  6 
3  3  7 


print(pd.concat([dat1,dat2],axis=1)) 
    dat1 dat2 
0  0  4 
1  1  5 
2  2  6 
3  3  7 
+0

那么说好点。我尝试不重置索引并生成了很多NULLS – Anand