2013-07-05 45 views
2

我使用scrapy提取网页中的标签上的信息,然后保存这些网页为HTML files.Eg http://www.austlii.edu.au/au/cases/cth/HCA/1945/这个网站有相关的司法办案。希望某些网页去各个环节,节约不仅关系到作为一个HTML page.eg去这个http://www.austlii.edu.au/au/cases/cth/HCA/1945/1.html,然后保存有关情况信息的特定司法个案的内容。Scrapy递归刮网页,保存内容为HTML文件

有没有办法在scrapy递归地做到这一点,保存内容的HTML页面

回答

0

是的,你可以用Scrapy做到这一点,Link Extractors将帮助:

from scrapy.contrib.spiders import CrawlSpider, Rule 
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor 
from scrapy.selector import HtmlXPathSelector 


class AustliiSpider(CrawlSpider): 
    name = "austlii" 
    allowed_domains = ["austlii.edu.au"] 
    start_urls = ["http://www.austlii.edu.au/au/cases/cth/HCA/1945/"] 
    rules = (
     Rule(SgmlLinkExtractor(allow=r"au/cases/cth/HCA/1945/\d+.html"), follow=True, callback='parse_item'), 
    ) 

    def parse_item(self, response): 
     hxs = HtmlXPathSelector(response) 

     # do whatever with html content (response.body variable) 

希望有所帮助。

+0

Thanks..will试试这个! – Ashmit