我有一个数据集,看起来像这样:聚合数据基于行的Python
Date | ID | Task | Description
2016-01-06 00:00:00 | 1 | 010 | This is text
2016-01-06 00:10:00 | 1 | 020 | This is text
2016-01-06 00:20:00 | 1 | 010 | This is text
2016-01-06 01:00:00 | 1 | 020 | This is text
2016-01-06 01:10:00 | 1 | 030 | This is text
2016-02-06 00:00:00 | 2 | 010 | This is text
2016-02-06 00:10:00 | 2 | 020 | This is text
2016-02-06 00:20:00 | 2 | 010 | This is text
2016-02-06 01:00:00 | 2 | 020 | This is text
2016-02-06 01:01:00 | 2 | 030 | This is text
任务020
一般任务010
后发生。这意味着当任务020
开始意味着任务010
端,同样也适用于任务020
,如果它在任何其他任务之前,则表示它已停止。
我需要组由Task
计算平均期限,总和和计数每个ID
每种类型的任务的,所以我期待这样的事情:
ID | Task | Average | Sum | Count
1 | 010 | 25 | 50 | 2
1 | 020 | 10 | 20 | 2
etc | etc | etc | etc | etc
有更多的ID,但我只关心010
和020
,所以无论从他们返回的号码是可以接受的。
有人可以请帮助如何在Python中做到这一点?这远远超出了我目前的技能。
我正在使用anaconda发行版。
非常感谢先进。
你怎么知道**最后**任务的持续时间? –
这是我遇到的一个问题,我无法真正了解这个持续时间。但是,因为我只需要'010'和'020',所以我不需要知道它。 –
嗨@jezrael对不起,我不明白你的问题。你想介绍一下吗? –