2013-02-22 50 views
3

我想知道是否有人能帮我让我的聚合功能正确。我试图计算一段文本在特定日期每小时出现的次数。到目前为止,我已经有了:聚合:每小时计数项目

db.daily_data.aggregate(
    [ 
    { $project : { useragent: 1, datetime: 1, url: 1, hour: {$hour: new Date("$datetime")} } }, 
    { $match : { datetime: {$gte: 1361318400000, $lt: 1361404800000}, useragent: /.*LinkCheck by Siteimprove.*/i } }, 
    { $group : { _id : { useragent: "$useragent", hour: "$hour" }, queriesPerUseragent: {$sum: 1} } } 
    ] 
); 

但我显然得到它错了,因为时间永远是0:

{ 
    "result" : [ 
    { 
     "_id" : { 
     "useragent" : "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.0) LinkCheck by Siteimprove.com", 
     "hour" : 0 
     }, 
     "queriesPerUseragent" : 94215 
    } 
    ], 
    "ok" : 1 
} 

这里有一个记录的下调例子太多:

{ 
    "_id" : ObjectId("50fe63c70266a712e8663725"), 
    "useragent" : "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.0) LinkCheck by Siteimprove.com", 
    "datetime" : NumberLong("1358848954813"), 
    "url" : "http://www.somewhere.com" 
} 

我也尝试使用new Date("$datetime").getHours()而不是$hour函数试图获得相同的结果,但没有运气。有人能指点我走向哪里吗?

谢谢!

+1

$ hour函数假定您有ISODate()或Date()格式,并且在agg框架中没有可用的日期格式转换(尽管它有一个jira票据)。 – 2013-02-22 10:26:06

回答

3

这是一个建议,而不是您的问题的答案。

在MongoDB进行分析时,建议您为每个要计算的指标预先聚合您的存储桶(在您的用例中为小时桶)。

因此,对于您的指标,您可以更新汇总预收款(加快你的查询时间):

db.user_agent_hourly.update({url: "your_url", useragent: "your user agent", hour: current_HOUR_of_DAY, date: current_DAY_Date}, {$inc: {counter:1}}, {upsert:true}) 

考虑到,在current_DAY_Date你必须指向稳定的日期值当天,即current_year/current_month/current_day 00:00:00,使用相同的小时:分钟:秒来接收当天收到的每个指标。

然后,您可以查询此集合,对于任何给定时间段内提取汇总分析如下:

db.user_agent_hourly.aggregate(
    {$match:{date:{$gte: INITIAL_DATE, $lt: FINAL_DATE}}}, 
    {$group:{ _id : { useragent: "$useragent", hour: "$hour" } ,queriesPerUseragent: {$sum: "$count"} } }, 
    {$sort:{queriesPerUseragent:-1}} 
) 

如果你想使用一个特定的用户代理筛选结果,您可以使用一个查询:

db.user_agent_hourly.aggregate(
    {$match:{date:{$gte: INITIAL_DATE, $lt: FINAL_DATE, useragent: "your_user_agent"}}}, 
    {$group:{ _id : { useragent: "$useragent", hour: "$hour" }, queriesPerUseragent: {$sum: "$count"} } } 
) 

PS:我们店的每一个在其他集合收到的度量单位,以便能够重新处理灾难或其他需要的情况下。