2017-04-03 53 views
-2

我目前有一个项目使用机器学习分析网站的网络日志。我正在清理这些数据,并且想要识别本网站的唯一访问者识别网络日志中的唯一身份访问者

我在处理网络日志方面没有太多经验,但很明显看到当用户访问时,检索到多个文件(例如下面显示的列cs.uri.stem中的记录)。

我的问题,当用户浏览多个页面时(如从页面A中的链接进入页面B)怎么样?我怎么知道他在这个网站上的行为?

此外,任何人都可以建议任何伟大的Python库,帮助分析网络日志?

非常感谢!

  date  time  s.ip cs.method cs.uri.stem                cs.uri.query s.port cs.username   c.ip sc.status sc.substatus sc.win32.status time.taken device   os   browser 
1 2014-08-05 00:00:03 10.130.0.12  GET/                     -  80   - 67.205.67.76  200   0    0  1391 Spider   Other PingdomBot_1.4 
2 2014-08-05 00:00:11 10.130.0.12  GET /about-the-hotel.aspx                -  80   - 70.56.59.43  200   0    0  1194  PC Mac_OS_X_10.8  Firefox_31.0 
3 2014-08-05 00:00:11 10.130.0.12  GET /~/media/Images/Hotel_ICON_revamp/about+us/a-hotel-unlike-any-others.ashx   -  80   - 70.56.59.43  200   0    0  976  PC Mac_OS_X_10.8  Firefox_31.0 
4 2014-08-05 00:00:12 10.130.0.12  GET /~/media/Images/Hotel_ICON_revamp/about+us/0713-ExComTeam.ashx      -  80   - 70.56.59.43  200   0    0  1620  PC Mac_OS_X_10.8  Firefox_31.0 
5 2014-08-05 00:00:12 10.130.0.12  GET /~/media/Images/Hotel_ICON_revamp/about+us/icon/vivienne-tam.ashx     -  80   - 70.56.59.43  200   0    0  1713  PC Mac_OS_X_10.8  Firefox_31.0 
6 2014-08-05 00:00:12 10.130.0.12  GET /~/media/Images/Hotel_ICON_revamp/about+us/icon/william-lim.ashx      -  80   - 70.56.59.43  200   0    0  2387  PC Mac_OS_X_10.8  Firefox_31.0 
7 2014-08-05 00:00:14 10.130.0.12  GET /~/media/Images/Hotel_ICON_revamp/about+us/icon/barney-cheng.ashx     -  80   - 70.56.59.43  200   0    0  2180  PC Mac_OS_X_10.8  Firefox_31.0 
8 2014-08-05 00:00:14 10.130.0.12  GET /~/media/Images/Hotel_ICON_revamp/about+us/icon/tommy-li.ashx      -  80   - 70.56.59.43  200   0    0  1146  PC Mac_OS_X_10.8  Firefox_31.0 
9 2014-08-05 00:00:14 10.130.0.12  GET /~/media/Images/Hotel_ICON_revamp/about+us/icon/yang-rutherford.ashx     -  80   - 70.56.59.43  200   0    0  869  PC Mac_OS_X_10.8  Firefox_31.0 
10 2014-08-05 00:00:14 10.130.0.12  GET /~/media/Images/Hotel_ICON_revamp/about+us/icon/justin_wong_img1.ashx    -  80   - 70.56.59.43  200   0    0  845  PC Mac_OS_X_10.8  Firefox_31.0 
+0

你可以用IP-OS-Browser指定它们 – RaminNietzsche

+0

你能更具体吗? –

+1

问题要求我们推荐或找到书籍,工具,软件库,教程或其他非本地资源,这些问题都是堆栈溢出问题。 – DyZ

回答

1

查看pandas库可能是个好主意。使用熊猫加载数据后(请参阅示例here),应该直接找到以一列或多列为条件的唯一元素,例如here

相关问题