0
我在和小康的几天得到这个错误,首先是一种刮:机械化得到403错误是由于robots.txt的,但robots.txt的块没有
mechanize._response.httperror_seek_wrapper: HTTP Error 403: request disallowed by robots.txt
然而,机器人该网站的.TXT写着:
User-agent: *
Disallow:
据this source,如果网站被关闭,以这种访问,robots.txt的将包含Disallow: /
。
这个错误仍然意味着我应该停止刮擦,或者有另一个问题吗?
我应该尝试安抚服务器(如减少频繁请求),或者只是通过添加标头等来规避错误?
最后,考虑到403,继续刮刮是不道德的吗?
但是robots.txt本身没有任何限制。 – Tag
这就是为什么你试图覆盖它一次(或两次),看看它是否会提升403错误。这是一个诊断检查。如果绕过robots.txt后403仍然存在,那么可能会阻止您的IP地址 – jarcobi889
如果我没有发现错误,该怎么办? (对不起,这个假设的谈话,但我还没有决定通过测试刚刚。) – Tag