我们跟踪我们网站的用户代理字符串。我想对他们做一些统计,看看我们有多少IE6用户(所以我们知道我们需要开发什么),以及我们有多少移动用户。自动标记用户代理字符串的统计信息?
因此,我们必须登录entires这样的:
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; FunWebProducts)
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; FunWebProducts; .NET CLR 1.0.3705; .NET CLR 1.1.4322; Media Center PC 4.0; .NET CLR 2.0.50727)
理想情况下,这将是非常整齐地看到所有的“有意义”的字符串,这将仅仅意味着可能字符串长于一定长度。例如,我可能会想看看有多少条目有FunWebProducts
或.NET CLR
或.NET CLR 1.0.3705
- 但我不要想要查看有多少个分号。所以我不一定要寻找唯一的字符串,而是所有的字符串,甚至是子集。所以,我想看看所有Mozilla
的计数,知道这包括Mozilla/5.0
和Mozilla/4.0
的计数。如果有一个嵌套的显示器会很好,从最短的字符串开始,然后继续下去。东西可能就像
4,2093 Mozilla
1,093 Mozilla/5.0
468 Mozilla/5.0 (Windows;
47 Mozilla/5.0 (Windows; U
2,398 Mozilla/4.0
这听起来像一个计算机科学家庭作业。这会被称为什么?有这样的事情存在吗,还是我自己写?
Tokenize在分号上不行;我有'Mozilla/5.0(Macintosh; U;英特尔Mac OS X 10_5_8; en-us)ApplewebKit/531.9(KHTML,如Gecko)版本/4.0.3 Safari/531.9' – user151841 2009-12-22 18:42:48