2016-10-04 157 views
-4

我想从robots.txt文件包含这个网站刮一些数据,是不是这意味着我可以从任何地方刮,但wp-admin? 也有任何其他方式,我可以知道该网站允许抓取/抓取没有任何阻塞? 对于抓取我使用Python Scrapy框架。什么robots.txt意味着在这一行?

User-agent: * 
Disallow: /wp-admin/ 
Allow: /wp-admin/admin-ajax.php 
+0

检查'robots.txt'总是看到,如果你允许刮的好方法。我也会检查TOS和EULA。是的,这就是'robots.txt'的意思。 –

+0

http://stackoverflow.com/questions/37274835/getting-forbidden-by-robots-txt-scrapy/37278895#37278895 –

+0

我对TOS和EULA没有任何想法,请给任何链接或一些细节,非常感谢! @MorganThrapp – Mohib

回答

1
在Scrapy较新版本的

,新设置的变量引入robotstxt_obey - 将跟随如果启用

BU默认它的价值True

正如评论所说,DOC机器人严格的txt确实说默认值是False,但是这种行为在最新版本的scrapy中已经改变,现在默认为True

+0

不知道,值被设置为True!我没有改变它。就是这样。谢谢 – Mohib

+0

是的,对于自最近的scrapy版本以来通过'scrapy startproject'创建的每个新的scrapy项目,该值默认为True。 – Granitosaurus

+0

是的,现在它默认为“”“ROBOTSTXT_OBEY = True”“”,并且doc没有反映最新的变化,已经在Github项目上提出了相同的PR – MrPandav