我有一个使用Python的患者ID号的数据框,每个记录代表不同的约会。在每次约会时,一个特征(dx)被记录为0或1.我想创建一个新特征来总结dx特征,但只能达到该患者的那一点。枚举Python中的分组变量
patient_ID | dx |
29847 0
29847 1
29847 0
29847 1
29847 1
我可以拿到小组第一的总和用一个简单的GROUPBY声明:
df.groupby(['patient_ID])['dx'].sum()
但我想是枚举值作为一个新的功能,只考虑现在和以前的记录:
patient_ID | dx | dx_enum
29847 0 0
29847 1 1
29847 0 1
29847 1 2
29847 1 3
我想这将采取for-loop和groupby语句的组合,但迄今不成功。感谢您的任何帮助,您可以提供!
您是否在寻找'cumsum()'? – EdChum 2015-03-30 21:22:51