1
我工作的网络爬虫(使用scrapy)使用2个不同的蜘蛛:传递请求到不同的蜘蛛
- 非常普通的蜘蛛,可以使用大量抓取(几乎)所有网站的启发式提取数据。
- 能够抓取特定网站的专用蜘蛛因网站特殊结构(该网站必须被抓取)而无法使用通用蜘蛛抓取。
目前一切都很好,但网站A包含其他应该被刮掉的“普通”网站的链接(使用蜘蛛1)。 有没有Scrappy的方式将请求传递给蜘蛛1?
解决方案我想过:
- 移动所有功能蜘蛛1.但是,这可能会带来麻烦,蜘蛛1的代码已经是很长的,复杂的,我想保持这种功能分开,如果可能的话。
- 保存链接到数据库就像是在Pass scraped URL's from one spider to another
有没有更好的办法建议?