我有这样的数据集,大熊猫分组数据帧 - 蟒
PRODUCT_ID SALE_DATE SALE_PRICE PROVIDER
1 01/02/16 25 1
1 02/10/16 60 1
1 01/11/16 63 2
1 09/10/16 65 3
2 11/11/15 54 1
2 13/01/16 34 2
3 19/05/14 45 1
3 15/10/15 38 1
3 16/06/14 53 2
3 18/10/15 58 2
这是一个组合数据集,由不同的供应商所提供的数据,对每个销售没有共同的标识符。这里的问题是每个数据提供者在每次销售时都会有略微不同的日期和价格。所以我试图将它们组合在一起作为单组销售。因此,这里的业务逻辑是数据提供者1是第一个获得销售数据,因此对于产品ID,如果来自提供者2或3的销售日期在1个月时间内并且价格在10美元差异内(或多或少) ,我们认为它们是相同的销售,否则将被视为不同的销售。所以,输出应该看起来像,
PRODUCT_ID SALE_DATE SALE_PRICE PROVIDER SALE_GROUP_ID
1 01/02/16 25 1 1
1 02/10/16 60 1 2
1 01/11/16 63 2 2
1 09/10/16 65 3 2
2 11/11/15 54 1 3
2 13/01/16 34 2 4
3 19/05/14 45 1 5
3 15/10/15 38 1 6
3 16/06/14 53 2 5
3 18/10/15 58 2 7
如何在熊猫中实现这一点,有人可以帮助吗?谢谢。
'18/10/15'和“11/11/15”都在一个月内,价格差异在10美元。他们是同样的销售? – srig
没有。因为他们有不同的product_id。 PRODUCT_ID应该被视为相同的销售。 –
'19/05/14'和'16/06/14'具有相同的PRODUCT_ID,都在一个月内,价格差异为10美元,并且是相同的销售。他们的销售ID是否需要按顺序排列? – srig