运行Scrapy Spider的多个实例

我有数千个来自同一个域（存储在MongoDB中）的URL，我需要使用scrapy进行爬网。事情是，蜘蛛抓取第一个URL，完成，然后拿起第二个。我怎样才能让它一次获取多个网址，并且所有网址都可以并行抓取 - 独立？运行Scrapy Spider的多个实例

我总是可以多次运行命令scrapy crawl <spidername>多次，但我正在寻找比这更复杂的解决方案。

实验点子欢迎光临！

来源

2015-12-11 Pravesh Jain

要小心 - 这听起来像是一种很好的方法来禁止你从你爬行的域名！ – zelanix

我了解风险。请假设域所有者永久将我的IP地址 –

@PraveshJain列入了白名单，您是否调整过[CONCURRENT_REQUESTS]条款（http://doc.scrapy.org/en/latest/topics/settings.html#concurrent-requests）和['CONCURRENT_REQUESTS_PER_DOMAIN']（http://doc.scrapy.org/en/latest/topics/settings.html#concurrent-requests-per-domain）？设置这些值足够高，scrapy应该同时下载大量页面。 –

您可以在蜘蛛的start_urls参数中加载Mongo中的所有URL。然后Scrapy将从这个列表中选择URL并开始同时处理它们。

来源

2015-12-15 12:19:49 Nikhil

运行Scrapy Spider的多个实例

回答

相关问题