如何抓住robots.txt禁止？

如何捕获scrapy中robots.txt禁止的请求？通常这似乎会被自动忽略，即没有输出，所以我真的不知道这些网址会发生什么。理想情况下，如果抓取一个网址导致robots.txt错误禁止这个，我想输出一个记录，如{'url': url, 'status': 'forbidden by robots.txt'}。我怎样才能做到这一点？如何抓住robots.txt禁止？

新的scrapy。感谢任何帮助。

来源

2017-05-25 Psidom

转到项目文件夹中的settings.py，并将ROBOTSTXT_OBEY = True更改为ROBOTSTXT_OBEY = False。

来源

2017-08-23 15:00:41 Umarr

如何抓住robots.txt禁止？

回答

相关问题