我有一个表中的大熊猫DF删除重复列,而这样做的熊猫合并
id product_1 product_2 count
1 100 200 10
2 200 600 20
3 100 500 30
4 400 100 40
5 500 700 50
6 200 500 60
7 100 400 70
我也有在数据帧的另一个表DF2
product price
100 5
200 10
300 15
400 20
500 25
600 30
700 35
我想与df1
这样,我得到的合并df2
price_x和price_y作为列
然后再次divide price_y/price_x
将最终列作为perc_diff
。
所以我试着做合并使用。
# Add prices for products 1 and 2
df3 = (df1.
merge(df2, left_on='product_1', right_on='product').
merge(df2, left_on='product_2', right_on='product'))
# Calculate the percent difference
df3['perc_diff'] = (df3.price_y - df3.price_x)/df3.price_x
但是当我做了合并,我得到的product_1
和product_2
对于如多列。合并后,我的df3.head(1)
是:
id product_1 product_2 count product_1 product_2 price_x price_y
1 100 200 10 100 200 5 10
那么,如何去除product_1
& product_2
这些多列的同时,合并或合并后?
是合并更快或加入一个巨大的数据集(以GB的) – Shubham
我会成为一个坚实的猜测,他们是对相同。 – piRSquared