如何避免使用scrapy时禁止

-1

我越来越经常禁止从网站，我设置download_delay = 10在scrapy中，我试过一个包fake_user_agent然后我试着实现tor和polipo，根据这个site配置没问题。但是再次运行1/2次后，我被禁止了！有人能帮我一下吗？如何避免使用scrapy时禁止

注意：scrapy-proxie我也想尝试这个，但不能激活。从一个地址的所有连接 - - 上点击

不TOR

来源

2016-10-06 Mohib

您需要提供更多的信息，比如你在爬什么网站，你爬的时候，等。如果该网站是禁止你做什么，你是可能做一些不喜欢的事情，或者它发现违反了ToS。没有更多的信息，这里没有人可以告诉你为什么你被禁止。 – Rejected

处理这个问题的正确方法是与网站所有者交谈并询问他们。如果您违反了他们的ToS，他们完全有权限制您的访问权限。我们没有办法做到这一点，在我看来，我们无法帮助你规避任何事情。 –

我投票结束这个问题作为题外话，因为可能的原因是违反了网站的服务条款，并且OP应该先与网站所有者交谈，以确定是否有正确的方式从他们的数据中获取数据现场。 –

你应该看一看在什么documentation说。

这里有一些提示，牢记这些类型的网站打交道时：

从知名的人从浏览器池中旋转你的用户代理（谷歌各地去它们的列表）

禁用cookie（参考 COOKIES_ENABLED）因为某些网站可能使用cookies来现场的机器人行为

使用下载延迟（2或更高）。请参阅DOWNLOAD_DELAY设置。

如果可能，请使用Google缓存来获取网页，而不是直接使用网站使用一组旋转IP。例如，免费的Tor 项目或有偿服务，如ProxyMesh

使用高度分布式下载器在内部规避禁令，这样你就可以只专注于解析干净的页面。这种下载器的一个例子是Crawlera

来源

2016-10-06 17:55:45

真的谢谢！你可以给我任何有关旋转IP的教程或示例项目，我真的坚持在这里！ – Mohib

[This]（http://pkmishra.github.io/blog/2013/03/18/how-to-run-scrapy-with-TOR-and-multiple-browser-agents-part-1-mac/）一个看起来不错。如果它对你有帮助，考虑接受答案。 –

使用延迟不好，经过多次考察

旋转代理，并查看这篇文章 - web scraping etiquette

来源

2016-10-06 17:48:37

如何避免使用scrapy时禁止

回答

相关问题