2016-03-05 152 views
3

我想刮刮擦框架。一些请求被重定向,但start_requests中设置的回调函数没有为这些重定向的url请求调用,但对非重定向url请求正常工作。回调重定向的请求Scrapy

我在start_requests功能如下代码:

for user in users: 
    yield scrapy.Request(url=userBaseUrl+str(user['userId']),cookies=cookies,headers=headers,dont_filter=True,callback=self.parse_p) 

但这self.parse_p被称为只对非302的请求。

回答

4

我想你会得到最后一页的回调(在重定向之后)。重定向已被RedirectMiddleware照顾。您可以禁用它,然后您将不得不手动执行所有重定向。如果你想有选择地关闭了几个类型的请求重定向你可以做这样的:

request = scrapy.Request(url, meta={'dont_redirect': True} callback=self.manual_handle_of_redirects) 

我不知道的是,中间请求/响应是非常有趣的,虽然。这也是RedirectMiddleware认为的。因此,它自动执行重定向并将中间URL(唯一有趣的事情)保存在:

response.request.meta.get('redirect_urls') 

您有几个选项!

例蜘蛛:

import scrapy 

class DimSpider(scrapy.Spider): 
    name = "dim" 

    start_urls = (
     'http://example.com/', 
    ) 

    def parse(self, response): 
     yield scrapy.Request(url="http://example.com/redirect302.php", dont_filter=True, callback=self.parse_p) 

    def parse_p(self, response): 
     print response.request.meta.get('redirect_urls') 
     print "done!" 

示例输出...

DEBUG: Crawled (200) <GET http://www.example.com/> (referer: None) 
DEBUG: Redirecting (302) to <GET http://myredirect.com> from <GET http://example.com/redirect302.php> 
DEBUG: Crawled (200) <GET http://myredirect.com/> (referer: http://example.com/redirect302.com/) 
['http://example.com/redirect302.php'] 
done! 

如果你真的要刮302页,你必须explicitcly允许它。例如这里,我允许302并设置dont_redirectTrue

handle_httpstatus_list = [302] 
def parse(self, response): 
    r = scrapy.Request(url="http://example.com/redirect302.php", dont_filter=True, callback=self.parse_p) 
    r.meta['dont_redirect'] = True 
    yield r 

最终的结果是:

DEBUG: Crawled (200) <GET http://www.example.com/> (referer: None) 
DEBUG: Crawled (302) <GET http://example.com/redirect302.com/> (referer: http://www.example.com/) 
None 
done! 

这种蜘蛛应该手动跟踪302个网址:

import scrapy 

class DimSpider(scrapy.Spider): 
    name = "dim" 

    handle_httpstatus_list = [302] 

    def start_requests(self): 
     yield scrapy.Request("http://page_with_or_without_redirect.html", 
          callback=self.parse200_or_302, meta={'dont_redirect':True}) 

    def parse200_or_302(self, response): 
     print "I'm on: %s with status %d" % (response.url, response.status) 
     if 'location' in response.headers: 
      print "redirecting" 
      return [scrapy.Request(response.headers['Location'], 
            callback=self.parse200_or_302, meta={'dont_redirect':True})] 

要小心。不要忽略设置handle_httpstatus_list = [302]否则你会得到“HTTP状态码不处理或不允许”。

+0

我已经编辑了代码和调用回调的问题。您所描述的行为不适用于在302代码之后重定向的请求。 –

+0

另外,我想这个框架的更好的方法是。该代码不会抓取重定向的网址。 –

+0

已更新,其中包含更新问题中的一些内容。我还会为'dont_redirect'' meta添加一个案例(虽然可能不那么有趣) – neverlastn

0

默认情况下,scrapy没有遵循302重定向。

在你的蜘蛛,你可以使用custom_settings属性:

custom_settings 的,将自该项目范围内的配置运行此蜘蛛时,可以覆盖设置的字典。它必须被定义为类属性,因为设置在实例化之前被更新。

组的URL请求可以被重定向的重定向数量如下:

class MySpider(scrapy.Spider): 
    name = "myspider" 
    allowed_domains = ["example.com"] 
    start_urls = [ "http://www.example.com" ] 

    custom_settings = { 'REDIRECT_MAX_TIMES': 333 } 

    def start_requests(self): 
     # Your code here 

我设置333作为一个例子的限制。

我希望这会有所帮助。