2009-11-27 40 views
1

在Scrapy教程存在BaseSpider的这个方法:Scrapy make_requests_from_url(URL)

make_requests_from_url(url)

接收的URL和 返回一个请求对象(或 请求的列表的方法对象)刮。

此方法被用来构建在 start_requests的 初始请求()方法,并且是 通常用于URL转换到 请求。

除非被覆盖,这个方法返回 请求与解析()方法 他们的回调函数,并启用 dont_filter参数(见 Request类获取更多信息)。

你明白这个方法的作用吗?我可以使用makerequestsfrom_url和BaseSpider代替SgmlLinkExtractor和CrawlSpider,它不适合我吗?

我想抓取超过给定的初始网址,Scrapy没有这样做。

感谢

回答

5

这是正确的,该CrawlSpider是有用的,在很多情况下方便,但它只涵盖了所有可能的蜘蛛的一个子集。如果你需要更复杂的东西,你通常会划分子类BaseSpider并实施start_requests()方法。