我是scrapy的新手,看起来这个问题没有被问到。scrapy在depth_limit上似乎没有优化
问题是,我只想得到一个大型网站的浅度爬行(大约500个链接),所以我设置了depth_limit=1
(也许以后会扩展到2或3),并且还要求蜘蛛过滤所有重复响应。
然而,阅读日志后,我发现,即使depth_limit=1
,履带还检查了不少头版的出站链接(约100000)和所有返回depth > 1
,这是浪费时间,因为上的所有链接首页的深度为1,那么生成的链接肯定会与深度2或更高。我认为没有理由检查深度为1的链接的outlinks,找到深度等于1的链接。
那么,如何编写我的设置来实现我自己的逻辑或优化蜘蛛?