2016-10-06 80 views
-1

我越来越经常禁止从网站,我设置download_delay = 10在scrapy中,我试过一个包fake_user_agent然后我试着实现tor和polipo,根据这个site配置没问题。但是再次运行1/2次后,我被禁止了!有人能帮我一下吗 ?如何避免使用scrapy时禁止

注意:scrapy-proxie我也想尝试这个,但不能激活。从一个地址的所有连接 - - 上点击

  • 不TOR

  • +0

    您需要提供更多的信息,比如你在爬什么网站,你爬的时候,等。如果该网站是禁止你做什么,你是可能做一些不喜欢的事情,或者它发现违反了ToS。没有更多的信息,这里没有人可以告诉你为什么你被禁止。 – Rejected

    +0

    处理这个问题的正确方法是与网站所有者交谈并询问他们。如果您违反了他们的ToS,他们完全有权限制您的访问权限。我们没有办法做到这一点,在我看来,我们无法帮助你规避任何事情。 –

    +0

    我投票结束这个问题作为题外话,因为可能的原因是违反了网站的服务条款,并且OP应该先与网站所有者交谈,以确定是否有正确的方式从他们的数据中获取数据现场。 –

    回答

    2

    你应该看一看在什么documentation说。

    这里有一些提示,牢记这些类型的 网站打交道时:

    • 从知名的人从浏览器 池中旋转你的用户代理(谷歌各地去它们的列表)

    • 禁用cookie(参考 COOKIES_ENABLED)因为某些网站可能使用cookies来现场的机器人行为

    • 使用下载延迟(2或更高)。请参阅DOWNLOAD_DELAY设置。
    • 如果 可能,请使用Google缓存来获取网页,而不是直接使用 网站使用一组旋转IP。例如,免费的Tor 项目或有偿服务,如ProxyMesh
    • 使用高度分布式 下载器在内部规避禁令,这样你就可以只专注于 解析干净的页面。这种下载器的一个例子是Crawlera
    +0

    真的谢谢!你可以给我任何有关旋转IP的教程或示例项目,我真的坚持在这里! – Mohib

    +0

    [This](http://pkmishra.github.io/blog/2013/03/18/how-to-run-scrapy-with-TOR-and-multiple-browser-agents-part-1-mac/)一个看起来不错。如果它对你有帮助,考虑接受答案。 –

    相关问题