如何判断一个页面是否允许漫游器？

我想创建一个bot来检查一个特定的URL是否有一些特定的内容。但是，当我运行它时，我不断收到'HTTP重定向循环'错误。如何判断一个页面是否允许漫游器？

我唯一可以怀疑的是该页面不允许漫游器。有什么方法可以判断页面是否不允许漫游器？我用Google搜索了一下，但我还没有找到答案。

编辑

检查出头出来后，这是robots.txt的说什么：

User-agent: * 
Disallow: /advsched/

我也注意到，当我在我的浏览器禁用cookie和访问该页面时，我得到'HTTP重定向循环'错误。所以根据我的理解，我尝试访问的页面不允许漫游器。然而，从我的理解有关卷曲的功能，只要我的用户代理是这样的：

Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.2) Gecko/20090729 Firefox/3.5.2 GTB5

，如果我是一个机器人或没有该网站不能告诉。这只剩下一件事 - 饼干。我知道cURL函数可以处理cookie，但他们可以处理它们，以便让我看起来像一个标准用户？我还没有得到它的工作。

如果网页与您的浏览器，但不是你的机器人，我想这就是你怎么说。 – ceejayoz

你可以发布你实际从页面获取内容的代码吗？如果你以正确的方式使用卷曲，就不可能检测到bot。 –

至于网站所有者的允许/一般许可，请查看http://example.com/robots.txt – mario

你不能说。

什么是机器人？服务器如何知道？通常，识别信息位于客户端在请求期间发送的User-Agent标头中。但是，并不要求某些服务器在一般水平上阻塞“机器人”。假设他们想阻止Google？

马里奥的检查robots.txt是一个很好的建议。网站所有者通常会将规则放在那里，以便让机器人访问什么，以及如何处理信息。尽管如此，这与你的重新定向没有任何关系。

2012-08-17 02:01:43 Brad

检查/robots.txt并解释其内容。

2012-08-17 02:46:02 ghoti

回答