我越来越经常禁止从网站,我设置download_delay = 10在scrapy中,我试过一个包fake_user_agent然后我试着实现tor和polipo,根据这个site配置没问题。但是再次运行1/2次后,我被禁止了!有人能帮我一下吗 ?如何避免使用scrapy时禁止
注意:scrapy-proxie我也想尝试这个,但不能激活。从一个地址的所有连接 - - 上点击
我越来越经常禁止从网站,我设置download_delay = 10在scrapy中,我试过一个包fake_user_agent然后我试着实现tor和polipo,根据这个site配置没问题。但是再次运行1/2次后,我被禁止了!有人能帮我一下吗 ?如何避免使用scrapy时禁止
注意:scrapy-proxie我也想尝试这个,但不能激活。从一个地址的所有连接 - - 上点击
你应该看一看在什么documentation说。
这里有一些提示,牢记这些类型的 网站打交道时:
从知名的人从浏览器 池中旋转你的用户代理(谷歌各地去它们的列表)
禁用cookie(参考 COOKIES_ENABLED)因为某些网站可能使用cookies来现场的机器人行为
- 使用下载延迟(2或更高)。请参阅DOWNLOAD_DELAY设置。
- 如果 可能,请使用Google缓存来获取网页,而不是直接使用 网站使用一组旋转IP。例如,免费的Tor 项目或有偿服务,如ProxyMesh
- 使用高度分布式 下载器在内部规避禁令,这样你就可以只专注于 解析干净的页面。这种下载器的一个例子是Crawlera
真的谢谢!你可以给我任何有关旋转IP的教程或示例项目,我真的坚持在这里! – Mohib
[This](http://pkmishra.github.io/blog/2013/03/18/how-to-run-scrapy-with-TOR-and-multiple-browser-agents-part-1-mac/)一个看起来不错。如果它对你有帮助,考虑接受答案。 –
旋转代理,并查看这篇文章 - web scraping etiquette
您需要提供更多的信息,比如你在爬什么网站,你爬的时候,等。如果该网站是禁止你做什么,你是可能做一些不喜欢的事情,或者它发现违反了ToS。没有更多的信息,这里没有人可以告诉你为什么你被禁止。 – Rejected
处理这个问题的正确方法是与网站所有者交谈并询问他们。如果您违反了他们的ToS,他们完全有权限制您的访问权限。我们没有办法做到这一点,在我看来,我们无法帮助你规避任何事情。 –
我投票结束这个问题作为题外话,因为可能的原因是违反了网站的服务条款,并且OP应该先与网站所有者交谈,以确定是否有正确的方式从他们的数据中获取数据现场。 –