我看到this发布,使scrapy抓取任何网站没有允许的域名限制。scrapy允许所有域名
是否有这样做的,如使用允许域变量的正则表达式没有更好的办法,喜欢 -
allowed_domains = ["*"]
我希望有一些其他的方式比侵入scrapy框架来做到这一点。
我看到this发布,使scrapy抓取任何网站没有允许的域名限制。scrapy允许所有域名
是否有这样做的,如使用允许域变量的正则表达式没有更好的办法,喜欢 -
allowed_domains = ["*"]
我希望有一些其他的方式比侵入scrapy框架来做到这一点。
根本不设置allowed_domains。
一下这篇scrapy文件get_host_regex()函数:
https://github.com/scrapy/scrapy/blob/master/scrapy/contrib/spidermiddleware/offsite.py
你应该diactivate异地middlware这是一个内置的蜘蛛中间件scrapy。 欲了解更多信息http://doc.scrapy.org/en/latest/topics/spider-middleware.html
谢谢。但是,我想为所有人设置allowed_domains,这是可能的吗? – riship89 2012-03-04 04:22:07
如果您未设置allowed_domains,则默认情况下允许所有域。 – 2012-03-04 18:01:44