我想用scrapy构建一个广泛的爬虫,怎样才能运行许多并发的蜘蛛但同时保持它们爬行不变的域?用scrapy广泛爬行
回答
运行同一个域的多个蜘蛛的目的是什么? 你想加速爬行过程还是蜘蛛有不同的逻辑?
如果首先看看docs。您应该在
settings.py
文件中增加CONCURRENT_REQUESTS = 100
。一只蜘蛛就足够了。如果蜘蛛有不同的逻辑,只需为它们中的每一个创建一个分离类。
我想我明白你来自哪里。您希望每个域都进行分布式限制,以便您可以并行运行多个爬网,同时尊重每个网站的限制。要做到这一点,您需要开发一个与蜘蛛共享的东西(数据库?)交谈的中间件。
一个众所周知的这样的系统是。
正如你所看到的here它支持细粒度的分布式控制,你可以控制每个域的“难度”。
它还具有类似于您要查找的重复数据删除功能(请参阅here)。主要的区别在于它并没有反映出Item
的要求,但是这应该会更好。
是的,这正是我期待的。我想要1.让我的刮板使用相同的域池,2.所有的蜘蛛将它们的物品返回到同一个刮取物品池,在那里它们被过滤以获得重复。 3.确保它们不在相同的域上开始爬网。废钢云是否具有这种内置的功能?我刚刚看到他们的网站。 – codeer
更新了上面的注释。 – neverlastn
或者,如果您需要的是分布式爬网程序,则可以使用Nutch或StormCrawler代替。两者都设计为在分布式集群上运行,前者使用Apache Hadoop和后者Apache Storm。
- 1. 广东话爬行scrapy超过1
- 2. Scrapy CSV爬行
- 3. Scrapy爬行0页
- 4. Scrapy条件爬行
- 5. Scrapy不是爬行
- 6. scrapy加速爬行
- 7. Scrapy不是爬行
- 8. 使用Scrapy进行多次爬行
- 9. Scrapy - 基于条件爬行
- 10. Scrapy爬行但不刮刮
- 11. Python - Scrapy爬行myrecipes.com问题
- 12. Scrapy不是爬行网页
- 13. Scrapy网络爬行不好
- 14. Scrapy只爬行1页
- 15. Scrapy蜘蛛不爬行
- 16. Scrapy深入爬行不起作用
- 17. Scrapy逆向爬网
- 18. scrapy新手:教程。运行scrapy爬行时出错dmoz
- 19. Scrapy如何运行功能,被爬
- 20. Scrapy,没有错误,蜘蛛爬行
- 21. Scrapy爬行速度慢(60页/分钟)
- 22. Scrapy,递归爬行与不同的XPathSelector
- 23. 蟒蛇Scrapy网络爬行和刮
- 24. 在scrapy中的Json响应中爬行
- 25. 在Scrapy中爬行多个级别
- 26. Scrapy爬行蜘蛛只触摸start_urls
- 27. Scrapy不产生结果(爬行0页)
- 28. Scrapy不在网站上爬行
- 29. scrapy:避免循环再爬行
- 30. Scrapy爬行蜘蛛停止工作
是的,我想在不同的域上运行多个蜘蛛。如果问题不清楚,我很抱歉。如果设置CONCURRENT_REQUESTS = 100和CONCURRENT_REQUESTS_PER_IP = 1,这是否解决了这个问题,我将有100个不同的蜘蛛每个抓取自己的域? – codeer
这将是同一个蜘蛛,看看[文档](http://doc.scrapy.org/en/latest/topics/settings.html#concurrent-requests-per-ip)[+](http:/ /doc.scrapy.org/en/latest/topics/settings.html#concurrent-requests) –