1
我有数千个来自同一个域(存储在MongoDB中)的URL,我需要使用scrapy进行爬网。事情是,蜘蛛抓取第一个URL,完成,然后拿起第二个。我怎样才能让它一次获取多个网址,并且所有网址都可以并行抓取 - 独立?运行Scrapy Spider的多个实例
我总是可以多次运行命令scrapy crawl <spidername>
多次,但我正在寻找比这更复杂的解决方案。
实验点子欢迎光临!
我有数千个来自同一个域(存储在MongoDB中)的URL,我需要使用scrapy进行爬网。事情是,蜘蛛抓取第一个URL,完成,然后拿起第二个。我怎样才能让它一次获取多个网址,并且所有网址都可以并行抓取 - 独立?运行Scrapy Spider的多个实例
我总是可以多次运行命令scrapy crawl <spidername>
多次,但我正在寻找比这更复杂的解决方案。
实验点子欢迎光临!
您可以在蜘蛛的start_urls参数中加载Mongo中的所有URL。然后Scrapy将从这个列表中选择URL并开始同时处理它们。
要小心 - 这听起来像是一种很好的方法来禁止你从你爬行的域名! – zelanix
我了解风险。请假设域所有者永久将我的IP地址 –
@PraveshJain列入了白名单,您是否调整过[CONCURRENT_REQUESTS]条款(http://doc.scrapy.org/en/latest/topics/settings.html#concurrent-requests)和['CONCURRENT_REQUESTS_PER_DOMAIN'](http://doc.scrapy.org/en/latest/topics/settings.html#concurrent-requests-per-domain)?设置这些值足够高,scrapy应该同时下载大量页面。 –