2014-01-24 42 views
1

我爬行大量的网址,并想知道是否有可能让scrapy不用'meta name =“robots”content =“noindex”'解析页面? 看看这里列出的拒绝规则http://doc.scrapy.org/en/latest/topics/link-extractors.html它看起来像拒绝规则只适用于URL。你可以让scrapy忽略xpath吗?Scrapy忽略noindex

from scrapy.selector import HtmlXPathSelector 
from scrapy.contrib.spiders import CrawlSpider, Rule 
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor 

from wallspider.items import Website 


class Spider(CrawlSpider): 
    name = "browsetest" 
    allowed_domains = ["www.mydomain.com"] 
    start_urls = ["http://www.mydomain.com",] 

    rules = (
     Rule(SgmlLinkExtractor(allow=('/browse/')), callback="parse_items", follow= True), 
     Rule(SgmlLinkExtractor(allow=(),unique=True,deny=('/[1-9]$', '(bti=)[1-9]+(?:\.[1-9]*)?', '(sort_by=)[a-zA-Z]', '(sort_by=)[1-9]+(?:\.[1-9]*)?', '(ic=32_)[1-9]+(?:\.[1-9]*)?', '(ic=60_)[0-9]+(?:\.[0-9]*)?', '(search_sort=)[1-9]+(?:\.[1-9]*)?', 'browse-ng.do\?', '/page/', '/ip/', 'out\+value', 'fn=', 'customer_rating', 'special_offers', 'search_sort=&', 'facet='))), 
    ) 

    def parse_items(self, response): 
     hxs = HtmlXPathSelector(response) 
     sites = hxs.select('//html') 
     items = [] 

     for site in sites: 
      item = Website() 
      item['url'] = response.url 
      item['canonical'] = site.xpath('//head/link[@rel="canonical"]/@href').extract() 
      item['robots'] = site.select('//meta[@name="robots"]/@content').extract() 
      items.append(item) 

     return items 
+1

你想跳过检索这些页面?如果是这样,那是不可能的,因为为了查找元机器人,您必须检索该页面。 – Rolando

+0

对不起,我改写了我的问题。是否有可能让它解析包含'meta name =“robots”content =“noindex”'的网址? –

+0

我可以否认xpath吗? –

回答

4

不幸的是,CrawlSpider没有提供您想要做的选项。尽管如此,你可以重写它的方法来实现它。

尝试增加这个方法将你的蜘蛛:

def _response_downloaded(self, response): 
     # Check whether this page contains the meta noindex in order to skip the processing. 
     sel = Selector(response) 
     if sel.xpath('//meta[@content="noindex"]'): 
      return 

     return super(Spider, self)._response_downloaded(response) 

每当文件是不够的,你可以查看源代码,看看有什么可以改变,在哪里,只是要小心你使用的是什么版本。您可以浏览github上的最新源代码:https://github.com/scrapy/scrapy/blob/master/scrapy/contrib/spiders/crawl.py#L61

但更好的方法是检查系统中的源代码。如果您正在使用IPython,可以使用??运算符轻松完成。

+0

关于源代码的很好的提示 - 我是python和编程的新手,你的帮助对我有巨大的帮助。 –

+0

对于另一个爬虫,只有当元内容包含noindex时,我将如何去解析? '返回超级(蜘蛛,自我).parse_items(响应)'? –

+0

@Murdrae是的,把'return super(...')移到if块中。 – Rolando