0

我在和小康的几天得到这个错误,首先是一种刮:机械化得到403错误是由于robots.txt的,但robots.txt的块没有

mechanize._response.httperror_seek_wrapper: HTTP Error 403: request disallowed by robots.txt 

然而,机器人该网站的.TXT写着:

User-agent: * 
Disallow: 

this source,如果网站被关闭,以这种访问,robots.txt的将包含Disallow: /

这个错误仍然意味着我应该停止刮擦,或者有另一个问题吗?

我应该尝试安抚服务器(如减少频繁请求),或者只是通过添加标头等来规避错误?

最后,考虑到403,继续刮刮是不道德的吗?

回答

1

你可以ignore the robots.txt看看会发生什么(可能不符合道德标准,即使是为了测试目的)。如果仍然有403,他们可能会专门阻止您的IP,而不是添加到robots.txt文件。

您可以联系该网站的所有者,看看您是否可以获得他们的许可,以覆盖robots.txt,如果你觉得合法的固定。

或者像你说的,忽略robots.txt。我不能评论道德影响,因为我不擅长这方面的工作。

+0

但是robots.txt本身没有任何限制。 – Tag

+0

这就是为什么你试图覆盖它一次(或两次),看看它是否会提升403错误。这是一个诊断检查。如果绕过robots.txt后403仍然存在,那么可能会阻止您的IP地址 – jarcobi889

+0

如果我没有发现错误,该怎么办? (对不起,这个假设的谈话,但我还没有决定通过测试刚刚。) – Tag