2012-08-17 50 views
0

我想创建一个bot来检查一个特定的URL是否有一些特定的内容。但是,当我运行它时,我不断收到'HTTP重定向循环'错误。如何判断一个页面是否允许漫游器?

我唯一可以怀疑的是该页面不允许漫游器。有什么方法可以判断页面是否不允许漫游器?我用Google搜索了一下,但我还没有找到答案。

编辑

检查出头出来后,这是robots.txt的说什么:

User-agent: * 
Disallow: /advsched/ 

我也注意到,当我在我的浏览器禁用cookie和访问该页面时,我得到'HTTP重定向循环'错误。所以根据我的理解,我尝试访问的页面不允许漫游器。然而,从我的理解有关卷曲的功能,只要我的用户代理是这样的:

Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.2) Gecko/20090729 Firefox/3.5.2 GTB5 

,如果我是一个机器人或没有该网站不能告诉。这只剩下一件事 - 饼干。我知道cURL函数可以处理cookie,但他们可以处理它们,以便让我看起来像一个标准用户?我还没有得到它的工作。

+0

如果网页与您的浏览器,但不是你的机器人,我想这就是你怎么说。 – ceejayoz

+1

你可以发布你实际从页面获取内容的代码吗? 如果你以正确的方式使用卷曲,就不可能检测到bot。 –

+3

至于网站所有者的允许/一般许可,请查看http://example.com/robots.txt – mario

回答

3

你不能说。

什么是机器人?服务器如何知道?通常,识别信息位于客户端在请求期间发送的User-Agent标头中。但是,并不要求某些服务器在一般水平上阻塞“机器人”。假设他们想阻止Google?

马里奥的检查robots.txt是一个很好的建议。网站所有者通常会将规则放在那里,以便让机器人访问什么,以及如何处理信息。尽管如此,这与你的重新定向没有任何关系。

相关问题