删除重复列，而这样做的熊猫合并

我有一个表中的大熊猫DF删除重复列，而这样做的熊猫合并

id product_1 product_2 count 
1  100  200   10 
2  200  600   20 
3  100  500   30 
4  400  100   40 
5  500  700   50 
6  200  500   60 
7  100  400   70

我也有在数据帧的另一个表DF2

product price 
100   5 
200   10 
300   15 
400   20 
500   25 
600   30 
700   35

我想与df1这样，我得到的合并df2 price_x和price_y作为列

然后再次divide price_y/price_x将最终列作为perc_diff。

所以我试着做合并使用。

# Add prices for products 1 and 2 
df3 = (df1. 
     merge(df2, left_on='product_1', right_on='product'). 
     merge(df2, left_on='product_2', right_on='product')) 

# Calculate the percent difference 
df3['perc_diff'] = (df3.price_y - df3.price_x)/df3.price_x

但是当我做了合并，我得到的product_1和product_2

对于如多列。合并后，我的df3.head(1)是：

id product_1 product_2 count product_1 product_2 price_x price_y 
1  100  200   10 100   200   5  10

那么，如何去除product_1 & product_2这些多列的同时，合并或合并后？

来源

2017-01-11 Shubham

df2_ = df2.set_index('product') 
df3 = df.join(df2_, on='product_1') \ 
     .join(df2_, on='product_2', lsuffix='_x', rsuffix='_y') 

df3.assign(perc_diff=df3.price_y.div(df3.price_x).sub(1))

来源

2017-01-11 08:52:12 piRSquared

是合并更快或加入一个巨大的数据集（以GB的） – Shubham

我会成为一个坚实的猜测，他们是对相同。 – piRSquared

对于列删除是必要rename：

df3 = df1.merge(df2, left_on='product_1', right_on='product') \ 
     .merge(df2.rename(columns={'product':'product_2'}), on='product_2') 

#borrow from piRSquared solution 
df3 = df3.assign(perc_diff=df3.price_y.div(df3.price_x).sub(1)) 
print (df3) 
    id product_1 product_2 count product price_x price_y perc_diff 
0 1  100  200  10  100  5  10  1.00 
1 3  100  500  30  100  5  25  4.00 
2 6  200  500  60  200  10  25  1.50 
3 7  100  400  70  100  5  20  3.00 
4 2  200  600  20  200  10  30  2.00 
5 4  400  100  40  400  20  5  -0.75 
6 5  500  700  50  500  25  35  0.40

来源

2017-01-11 09:31:20 jezrael

删除重复列，而这样做的熊猫合并

回答

相关问题