0
在scrapy中,有一个选项可以限制对某些域进行爬网,即将它们放入allowed_domains变量中。根据模式禁用scrapy中的子域并筛选链接
- 我该如何禁止爬虫运行到某些子域?
- 我该如何禁止爬虫跟踪特定模式的链接,例如:包含“?login =”或
- 是否有可能只遵循链接满足一些正则表达式模式?
在scrapy中,有一个选项可以限制对某些域进行爬网,即将它们放入allowed_domains变量中。根据模式禁用scrapy中的子域并筛选链接
this怎么样?我认为文档是一个很好的阅读地方 - 你可以在allow
旁找到deny
的参数,并且它们可以使用正则表达式。