7
我正在使用scrapy CrawlSpider
并定义了一个双绞线来控制我的爬行程序。在测试期间,我爬过一个收集超过几GB数据的新闻网站。大多数情况下,我对最新的故事感兴趣,所以我正在寻找一种方法来限制请求的页数,字节或秒。Scrapy:限制请求或请求字节数
是否有明确的
- request_bytes
- request_counts或
- 运行时间(秒)极限的常用方法?
我正在使用scrapy CrawlSpider
并定义了一个双绞线来控制我的爬行程序。在测试期间,我爬过一个收集超过几GB数据的新闻网站。大多数情况下,我对最新的故事感兴趣,所以我正在寻找一种方法来限制请求的页数,字节或秒。Scrapy:限制请求或请求字节数
是否有明确的
在scrapy
有类scrapy.contrib.closespider.CloseSpider
。 您可以定义变量CLOSESPIDER_TIMEOUT
,CLOSESPIDER_ITEMCOUNT
, CLOSESPIDER_PAGECOUNT
和CLOSESPIDER_ERRORCOUNT
。
蜘蛛自动关闭,当标准被满足: http://doc.scrapy.org/en/latest/topics/extensions.html#module-scrapy.contrib.closespider
是有办法CLOSESIPDER_PAGECOUNT可以动态地为每个蜘蛛设置? –
@ImanAkbari:请为您的问题创建一个合适的问题。 – Jon