-1
我想要求以1小时的间隔平均查找一天中最繁忙的时间。带时间的Spark请求
我在格式为“%d /%b /%Y:%H:%M:%S”的数据框中显示行日期。
我开始这样的:
mostBusyTimeDF = logDF.groupBy("date") ...
例如输入:
date
2015-12-01 21:04:00
2015-12-01 10:04:00
2015-12-01 21:07:00
2015-12-01 21:34:00
在输出:
date count(1 hour interval)
2015-12-01 21:04:00 3
2015-12-01 10:04:00 1
我不知道以后我该怎么办呢..
你能帮我吗?
非常感谢
你能为我们提供样品的输入和输出?你想创建例如上午1点--10点的请求,上午2点 - 20点的请求等? –
@T.Gawęda我编辑我的问题 – JackR
计数应该只在给定小时内的第一个日期? –