比方说,我有以下系列。熊猫掉落非常重复只有
s = pandas.Series([0, 1, 2, 3, 3, 3, 3, 4, 5, 6, 6, 6, 7, 7])
我可以保持该系列的第一个重复(每个重复值)以下
s[s.duplicated(keep='first')]
我可以保持该系列的最后一个副本(每个副本值)以下
s[s.duplicated(keep='last')]
但是,我正在执行以下操作。
- 只删除第一个副本,保留该匹配值的其他副本,但也保留所有其他重复值不同的值(包括每个组的第一个副本)。在上面的例子中,我们将丢弃第一个
3
,但保留其他3's
。保留所有其他重复项。 - 保留第一个副本,丢弃匹配值的副本,但也保留其他变量值的所有其他副本。在上面的例子中,我们保留第一个
3
,但是放弃所有其他3's
。保留所有其他重复项。
我一直在使用cumsum()
和diff()
拍摄我的大脑,以便在检测到重复项时捕获更改。我想象一个解决方案会涉及到这一点,但我似乎无法得到一个完美的解决方案。我现在经历了太多的真值表...
你知道的一种方式,我的问题得到#2 ?即使给了#1的答案,我仍然遇到问题。 – jab
我用解决方案更新了答案 –