2017-05-25 71 views
1

如何捕获scrapy中robots.txt禁止的请求?通常这似乎会被自动忽略,即没有输出,所以我真的不知道这些网址会发生什么。理想情况下,如果抓取一个网址导致robots.txt错误禁止这个,我想输出一个记录,如{'url': url, 'status': 'forbidden by robots.txt'}。我怎样才能做到这一点?如何抓住robots.txt禁止?

新的scrapy。感谢任何帮助。

回答

2

转到项目文件夹中的settings.py,并将ROBOTSTXT_OBEY = True更改为ROBOTSTXT_OBEY = False