1
如何捕获scrapy中robots.txt禁止的请求?通常这似乎会被自动忽略,即没有输出,所以我真的不知道这些网址会发生什么。理想情况下,如果抓取一个网址导致robots.txt错误禁止这个,我想输出一个记录,如{'url': url, 'status': 'forbidden by robots.txt'}
。我怎样才能做到这一点?如何抓住robots.txt禁止?
新的scrapy。感谢任何帮助。
如何捕获scrapy中robots.txt禁止的请求?通常这似乎会被自动忽略,即没有输出,所以我真的不知道这些网址会发生什么。理想情况下,如果抓取一个网址导致robots.txt错误禁止这个,我想输出一个记录,如{'url': url, 'status': 'forbidden by robots.txt'}
。我怎样才能做到这一点?如何抓住robots.txt禁止?
新的scrapy。感谢任何帮助。
转到项目文件夹中的settings.py
,并将ROBOTSTXT_OBEY = True
更改为ROBOTSTXT_OBEY = False
。