Scrapy忽略noindex

我爬行大量的网址，并想知道是否有可能让scrapy不用'meta name =“robots”content =“noindex”'解析页面？看看这里列出的拒绝规则http://doc.scrapy.org/en/latest/topics/link-extractors.html它看起来像拒绝规则只适用于URL。你可以让scrapy忽略xpath吗？Scrapy忽略noindex

from scrapy.selector import HtmlXPathSelector 
from scrapy.contrib.spiders import CrawlSpider, Rule 
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor 

from wallspider.items import Website 


class Spider(CrawlSpider): 
    name = "browsetest" 
    allowed_domains = ["www.mydomain.com"] 
    start_urls = ["http://www.mydomain.com",] 

    rules = (
     Rule(SgmlLinkExtractor(allow=('/browse/')), callback="parse_items", follow= True), 
     Rule(SgmlLinkExtractor(allow=(),unique=True,deny=('/[1-9]$', '(bti=)[1-9]+(?:\.[1-9]*)?', '(sort_by=)[a-zA-Z]', '(sort_by=)[1-9]+(?:\.[1-9]*)?', '(ic=32_)[1-9]+(?:\.[1-9]*)?', '(ic=60_)[0-9]+(?:\.[0-9]*)?', '(search_sort=)[1-9]+(?:\.[1-9]*)?', 'browse-ng.do\?', '/page/', '/ip/', 'out\+value', 'fn=', 'customer_rating', 'special_offers', 'search_sort=&', 'facet='))), 
    ) 

    def parse_items(self, response): 
     hxs = HtmlXPathSelector(response) 
     sites = hxs.select('//html') 
     items = [] 

     for site in sites: 
      item = Website() 
      item['url'] = response.url 
      item['canonical'] = site.xpath('//head/link[@rel="canonical"]/@href').extract() 
      item['robots'] = site.select('//meta[@name="robots"]/@content').extract() 
      items.append(item) 

     return items

来源

2014-01-24 Jason Youk

你想跳过检索这些页面？如果是这样，那是不可能的，因为为了查找元机器人，您必须检索该页面。 – Rolando

对不起，我改写了我的问题。是否有可能让它解析包含'meta name =“robots”content =“noindex”'的网址？ –

我可以否认xpath吗？ –

不幸的是，CrawlSpider没有提供您想要做的选项。尽管如此，你可以重写它的方法来实现它。

尝试增加这个方法将你的蜘蛛：

def _response_downloaded(self, response): 
     # Check whether this page contains the meta noindex in order to skip the processing. 
     sel = Selector(response) 
     if sel.xpath('//meta[@content="noindex"]'): 
      return 

     return super(Spider, self)._response_downloaded(response)

每当文件是不够的，你可以查看源代码，看看有什么可以改变，在哪里，只是要小心你使用的是什么版本。您可以浏览github上的最新源代码：https://github.com/scrapy/scrapy/blob/master/scrapy/contrib/spiders/crawl.py#L61

但更好的方法是检查系统中的源代码。如果您正在使用IPython，可以使用??运算符轻松完成。

来源

2014-01-24 20:51:23 Rolando

关于源代码的很好的提示 - 我是python和编程的新手，你的帮助对我有巨大的帮助。 –

对于另一个爬虫，只有当元内容包含noindex时，我将如何去解析？ '返回超级（蜘蛛，自我）.parse_items（响应）'？ –

@Murdrae是的，把'return super（...'）移到if块中。 – Rolando

Scrapy忽略noindex

回答

相关问题