我有几千行,看起来像这样的熊猫数据帧:大熊猫:分组和重新编制后的行之间的操作
x.head()
id jname wbdqueue_id startdatetime \
59 1341127 ondemand_build_baspen-w7g 26581 2017-07-31 23:14:56
60 1341126 ondemand_qa_qforchecka 26581 2017-07-31 23:15:35
61 1341125 ondemand_build_bchecka 26581 2017-07-31 23:14:56
63 1341123 ondemand_build_baspen-w7f 26581 2017-07-31 23:10:05
64 1341122 ondemand_update_waspen-w7a 26581 2017-07-31 23:09:32
enddatetime
59 2017-07-31 23:19:12
60 2017-07-31 23:34:12
61 2017-07-31 23:15:30
63 2017-07-31 23:14:56
64 2017-07-31 23:10:00
我想,每个wbdqueue_id,得到的startDateTime之间的差异 ondemand_update_waspen-w7a和enddatetime ondemand_build_baspen-w7g。有什么办法呢?
我压缩了CSV文件并解析了两个10 startdatetime和enddatetime as time。然后我按wbdqueue_id分组。我的想法是通过jname索引每个组,以便我可以找到我需要的两个jname的开始和结束时间戳。 但是,当我这样做时,所有其他值成为NaN或NaT(对于时间列)。
-Sachin
虽然PiRSquared的建议是成功的,但我认为这更灵活。我已经遇到了数据清理问题(有些组没有这两个_jname_)。我仍然试图弄清楚如何在groupby之后清除/放弃组,如果数据丢失并且groupby的函数似乎是一种合理的方式来执行此操作。谢谢! –