我想从robots.txt文件包含这个网站刮一些数据,是不是这意味着我可以从任何地方刮,但wp-admin? 也有任何其他方式,我可以知道该网站允许抓取/抓取没有任何阻塞? 对于抓取我使用Python Scrapy框架。什么robots.txt意味着在这一行?
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
我想从robots.txt文件包含这个网站刮一些数据,是不是这意味着我可以从任何地方刮,但wp-admin? 也有任何其他方式,我可以知道该网站允许抓取/抓取没有任何阻塞? 对于抓取我使用Python Scrapy框架。什么robots.txt意味着在这一行?
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
,新设置的变量引入robotstxt_obey
- 将跟随如果启用
BU默认它的价值True
正如评论所说,DOC机器人严格的txt确实说默认值是False
,但是这种行为在最新版本的scrapy中已经改变,现在默认为True
不知道,值被设置为True!我没有改变它。就是这样。谢谢 – Mohib
是的,对于自最近的scrapy版本以来通过'scrapy startproject'创建的每个新的scrapy项目,该值默认为True。 – Granitosaurus
是的,现在它默认为“”“ROBOTSTXT_OBEY = True”“”,并且doc没有反映最新的变化,已经在Github项目上提出了相同的PR – MrPandav
检查'robots.txt'总是看到,如果你允许刮的好方法。我也会检查TOS和EULA。是的,这就是'robots.txt'的意思。 –
http://stackoverflow.com/questions/37274835/getting-forbidden-by-robots-txt-scrapy/37278895#37278895 –
我对TOS和EULA没有任何想法,请给任何链接或一些细节,非常感谢! @MorganThrapp – Mohib