2016-12-17 60 views
1

我有兴趣下载以便稍后分析一堆网页。有两件事我想要做:将网页和相关资源下载到python中的WARC中

  • 将页面和相关资源(图像,与文章关联的多个页面等)下载到WARC文件。
  • 将所有链接更改为指向现在的本地文件。

我想用Python做到这一点。

有没有这样做的好库? Scrapy似乎被设计为刮取网站,而不是单个页面,我不知道如何生成WARC文件。如果没有更多的python native,调用wget是一个可行的解决方案。 Heritrix是完全矫枉过正的,而不是Python的解决方案。如果它有一个很好的文档化的Python库,wpull将是理想的,但它似乎主要是一个应用程序。

还有其他想法吗?

回答

1

只是使用wget,是最简单和最稳定的工具,你可以爬网和保存到warc。

人的wget,或只是开始:

--warc-file=FILENAME  save request/response data to a .warc.gz file 
-p, --page-requisites   get all images, etc. needed to display HTML page 

请注意你没有改变任何链接,则WARC保留原始网页。是重播软件(openwayback,pywb)的作用,使得warc内容可以再次浏览。

,如果你需要去与蟒蛇: internetarchive/warc是默认的库

看看这个,如果你想手工制作一个WARC文件ampoffcom/htmlwarc