Scrapy递归刮网页，保存内容为HTML文件

我使用scrapy提取网页中的标签上的信息，然后保存这些网页为HTML files.Eg http://www.austlii.edu.au/au/cases/cth/HCA/1945/这个网站有相关的司法办案。希望某些网页去各个环节，节约不仅关系到作为一个HTML page.eg去这个http://www.austlii.edu.au/au/cases/cth/HCA/1945/1.html，然后保存有关情况信息的特定司法个案的内容。Scrapy递归刮网页，保存内容为HTML文件

有没有办法在scrapy递归地做到这一点，保存内容的HTML页面

来源

2013-07-05 Ashmit

是的，你可以用Scrapy做到这一点，Link Extractors将帮助：

from scrapy.contrib.spiders import CrawlSpider, Rule 
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor 
from scrapy.selector import HtmlXPathSelector 


class AustliiSpider(CrawlSpider): 
    name = "austlii" 
    allowed_domains = ["austlii.edu.au"] 
    start_urls = ["http://www.austlii.edu.au/au/cases/cth/HCA/1945/"] 
    rules = (
     Rule(SgmlLinkExtractor(allow=r"au/cases/cth/HCA/1945/\d+.html"), follow=True, callback='parse_item'), 
    ) 

    def parse_item(self, response): 
     hxs = HtmlXPathSelector(response) 

     # do whatever with html content (response.body variable)

希望有所帮助。

来源

2013-07-05 07:53:21 alecxe

Thanks..will试试这个！ – Ashmit

Scrapy递归刮网页，保存内容为HTML文件

回答

相关问题