机械化得到403错误是由于robots.txt的，但robots.txt的块没有

mechanize._response.httperror_seek_wrapper: HTTP Error 403: request disallowed by robots.txt

然而，机器人该网站的.TXT写着：

User-agent: * 
Disallow:

据this source，如果网站被关闭，以这种访问，robots.txt的将包含Disallow: /。

这个错误仍然意味着我应该停止刮擦，或者有另一个问题吗？

我应该尝试安抚服务器（如减少频繁请求），或者只是通过添加标头等来规避错误？

最后，考虑到403，继续刮刮是不道德的吗？

2017-02-21 Tag

你可以ignore the robots.txt看看会发生什么（可能不符合道德标准，即使是为了测试目的）。如果仍然有403，他们可能会专门阻止您的IP，而不是添加到robots.txt文件。

您可以联系该网站的所有者，看看您是否可以获得他们的许可，以覆盖robots.txt，如果你觉得合法的固定。

或者像你说的，忽略robots.txt。我不能评论道德影响，因为我不擅长这方面的工作。

2017-02-21 21:21:33 jarcobi889

但是robots.txt本身没有任何限制。 – Tag

这就是为什么你试图覆盖它一次（或两次），看看它是否会提升403错误。这是一个诊断检查。如果绕过robots.txt后403仍然存在，那么可能会阻止您的IP地址 – jarcobi889

如果我没有发现错误，该怎么办？（对不起，这个假设的谈话，但我还没有决定通过测试刚刚。） – Tag

回答