我有一个包含四列的海量数据框,其中两列是'日期'(格式为datetime
)和'页面'(位置另存为string
)。我已将数据框分组为'page',并将其称为pagegroup
,并且想知道每个页面被访问的时间范围(例如,第一次访问在1-1-13上,最后一次在1-5-13上,所以max-min是5天)。在pandas中的GroupBy对象上计算date_range
我知道熊猫,我可以使用date_range
比较两个日期时间,但在尝试喜欢的事:
pagegroup['date'].agg(np.date_range)
回报
AttributeError: 'module' object has no attribute 'date_range'
,而试图简单(非特定日期的)numpy的功能ptp
给我一个整数的答案:
daterange = pagegroup['date'].agg([np.ptp])
daterange.head()
ptp
page
%2F 0
/ 13325984000000000
/-509606456 297697000000000
/-511484155 0
/-511616154 0
有谁能想到一种计算日期范围的方法,并使其以可识别的日期格式返回?
谢谢
['date_range'](http://pandas.pydata.org/pandas-docs/stable/timeseries。 html#time-series-date-functionality)是一个熊猫函数(所以它是'pd.date_range'而不是'np'),但它不会比较两个日期时间。 –