假设我们有以下Web访问日志。通过访问时间戳进行聚类
timestamp page_visted
======================================
2017-01-02 10:00:02 /xxx/a.html
2017-01-02 10:00:06 /xxx/b.html
2017-01-02 10:01:03 /xxx/c.html
2017-01-02 10:02:02 /xxx/d.html
2017-01-02 15:00:02 /xxx/a.html
2017-01-02 15:01:10 /xxx/b.html
2017-01-02 15:03:05 /xxx/c.html
该用户访问我们的网站2次,并访问了7页。我的问题是“知道他访问我们的网站多少次而不是访问了多少页面的最佳方式是什么?”
因为用户可能会访问不同数量的页面并为每次访问花费不同的时间,因此很难设置固定数量或间隔来对这些记录进行分组。有没有算法根据它们的时间戳对这些记录进行分组(聚合)?谢谢。
你访问日志还包含用户ID的我假设? – mtoto
如果您有任何登录页面或提供身份验证的任何页面,那么您只能计算这些值。 – Knight71
@ Knight71这是一个好主意,只要没有'记住我'选项 – ImDarrenG