我需要将熊猫数据框中的一些数据分组,但标准分组方法并不完全符合我的需要。它必须组合,以便“loc”中的每个更改和/或“name”中的每个更改都被视为一个单独的组。基于python熊猫数据框中列的状态变化将时间序列数据分组到组中
示例;
x = pd.DataFrame([['john','abc',1],['john','abc',2],['john','abc',3],['john','xyz',4],['john','xyz',5],['john','abc',6],['john','abc',7],['matt','abc',8]])
x.columns = ['name','loc','time']
name loc time
john abc 1
john abc 2
john abc 3
john xyz 4
john xyz 5
john abc 6
john abc 7
matt abc 8
我需要一群这些值,这样得出的数据是
name loc first last
john abc 1 3
john xyz 4 5
john abc 6 7
matt abc 8 8
默认分组(正常)工作组中的所有所以我们只剩下3组禄和名称值(约翰福音/ abc是1组)。有人知道如何强制分组,我怎么需要它?
我能够使用for循环(iterrows)生成所需的表格,但是如果有一个很好的熊猫pythonic方法来做同样的事情,我很想知道。
预先感谢您。
马特
只是为了确保,你想要的倒数第二行中的结果,第二个'(“约翰”,“ABC” )'行。我知道Github上有一个关于连续“groupby”的问题,我会看看我能否找到它。 – TomAugspurger