2013-11-15 39 views
2

有没有办法通过使用PhantomJS和/或像Anemone这样的ruby爬虫来防止伪造的Google Analytics统计信息?防止使用自定义爬虫的假分析统计

我们的监测工具(基于它们两者)从我们的客户端爬取网站并更新特定域中每个链接的链接状态。

这个问题,模拟巨大的交通。

有没有办法像“我是机器人,不跟踪我”这样的cookie,标题或什么?

(添加履带IP的谷歌分析[作为过滤器]可能不是最好的解决方案)

预先感谢

回答

1

我发现这一特定问题的迅速解决。从所有Google Analytics统计信息中排除执行js(如phantomjs)的抓取工具最简单的方法就是阻止Google Analytics域名通过/etc/hosts

127.0.0.1 www.google-analytics.com 
127.0.0.1 google-analytics.com 

这是防止虚假数据的最简单方法。这样,您不必为所有客户添加过滤器。 (感谢其他答案)

0

IP过滤可能不充分,但也许由用户代理字符串过滤(其可以用幻影随意设定)?这将是过滤器中的“浏览器”字段。

3

乔,尝试建立先进排除过滤器 - 利用现场浏览器进入“过滤模式”放下你的名字的用户代理为幻影(或任何其它用户代理 - 仰望在您的技术 - >Browser and OS report)所需的名称。

enter image description here