2013-01-04 33 views
0

我正在使用scrapy来抓取搜索结果。 我有变量search_page,它告诉我们在哪个页面上。如何停止解析函数中的爬虫程序

我在parse函数中有这个变量。

现在我想的是,如果search_page > 500然后履带应停止爬行

我怎么能做到这一点

def parse(self, response): 

    hxs = HtmlXPathSelector(response) 
    sites = hxs.select('//div[@class="headline_area"]') 
    items = [] 

    for site in sites[:5]: 
     item = StackItem() 
     log.msg(' LOOP' +str(ivar)+ '', level=log.ERROR) 
     item['title'] ="yoo ma" 
     request = Request("blabla", callback=self.test1) 
     request.meta['item'] = item 
     page_number = nextlink.split("&")[-3].split("=")[-1] 
     if page_number > 500: 
       STOP 
     ivar = ivar + 1 
     yield request 
+0

请张贴相关的代码。 –

+0

在'parse'函数的调用者中有一个变量。在每个解析调用中增加它。 – aacanakin

+0

用'break'代替'STOP'? – elssar

回答