2015-07-12 11 views
0

在scrapy中,有一个选项可以限制对某些域进行爬网,即将它们放入allowed_domains变量中。根据模式禁用scrapy中的子域并筛选链接

  1. 我该如何禁止爬虫运行到某些子域?
  2. 我该如何禁止爬虫跟踪特定模式的链接,例如:包含“?login =”或
  3. 是否有可能只遵循链接满足一些正则表达式模式?

回答

0

this怎么样?我认为文档是一个很好的阅读地方 - 你可以在allow旁找到deny的参数,并且它们可以使用正则表达式。