我有以下的数据帧,并想:熊猫集团 - 包括所有列
- 组记录由
month
- 总和
QTY_SOLD
和各UPC_ID
(每月)独特的NET_AMT
- 附上其余的列以及产生的数据帧
我认为我可以做到这一点的方式是第1种:创建month
列汇总D_DATES
,然后通过UPC_ID
汇总QTY_SOLD
。
脚本:
# Convert date to date time object
df['D_DATE'] = pd.to_datetime(df['D_DATE'])
# Create aggregated months column
df['month'] = df['D_DATE'].apply(dt.date.strftime, args=('%Y.%m',))
# Group by month and sum up quantity sold by UPC_ID
df = df.groupby(['month', 'UPC_ID'])['QTY_SOLD'].sum()
当前数据帧:
UPC_ID | UPC_DSC | D_DATE | QTY_SOLD | NET_AMT
----------------------------------------------
111 desc1 2/26/2017 2 10 (2 x $5)
222 desc2 2/26/2017 3 15
333 desc3 2/26/2017 1 4
111 desc1 3/1/2017 1 5
111 desc1 3/3/2017 4 20
所需的输出:
MONTH | UPC_ID | QTY_SOLD | NET_AMT | UPC_DSC
----------------------------------------------
2017-2 111 2 10 etc...
2017-2 222 3 15
2017-2 333 1 4
2017-3 111 5 25
实际输出:
个MONTH | UPC_ID
----------------------------------------------
2017-2 111 2
222 3
333 1
2017-3 111 5
...
问题:
- 怎样包括每一行的一个月?
- 如何包含数据框的其余列?
- 除了
QTY_SOLD
之外,怎么样还总结NET_AMT
?