如何停止解析函数中的爬虫程序

我正在使用scrapy来抓取搜索结果。我有变量search_page，它告诉我们在哪个页面上。如何停止解析函数中的爬虫程序

我在parse函数中有这个变量。

现在我想的是，如果search_page > 500然后履带应停止爬行

我怎么能做到这一点

def parse(self, response): 

    hxs = HtmlXPathSelector(response) 
    sites = hxs.select('//div[@class="headline_area"]') 
    items = [] 

    for site in sites[:5]: 
     item = StackItem() 
     log.msg(' LOOP' +str(ivar)+ '', level=log.ERROR) 
     item['title'] ="yoo ma" 
     request = Request("blabla", callback=self.test1) 
     request.meta['item'] = item 
     page_number = nextlink.split("&")[-3].split("=")[-1] 
     if page_number > 500: 
       STOP 
     ivar = ivar + 1 
     yield request

来源

2013-01-04 user19140477031

请张贴相关的代码。 –

在'parse'函数的调用者中有一个变量。在每个解析调用中增加它。 – aacanakin

用'break'代替'STOP'？ – elssar

https://scrapy.readthedocs.org/en/latest/topics/exceptions.html?highlight=closeSpider

从scrapy.exceptions导入CloseSpider

if int(page_number) > 500: 
     raise CloseSpider('Search Exceeded 500')

来源

2013-01-04 02:40:49 user2134226

如何停止解析函数中的爬虫程序

回答

相关问题