将网页和相关资源下载到python中的WARC中

我有兴趣下载以便稍后分析一堆网页。有两件事我想要做：将网页和相关资源下载到python中的WARC中

将页面和相关资源（图像，与文章关联的多个页面等）下载到WARC文件。
将所有链接更改为指向现在的本地文件。

我想用Python做到这一点。

有没有这样做的好库？ Scrapy似乎被设计为刮取网站，而不是单个页面，我不知道如何生成WARC文件。如果没有更多的python native，调用wget是一个可行的解决方案。 Heritrix是完全矫枉过正的，而不是Python的解决方案。如果它有一个很好的文档化的Python库，wpull将是理想的，但它似乎主要是一个应用程序。

还有其他想法吗？

来源

2016-12-17 Andrew Spott

只是使用wget，是最简单和最稳定的工具，你可以爬网和保存到warc。

人的wget，或只是开始：

--warc-file=FILENAME  save request/response data to a .warc.gz file 
-p, --page-requisites   get all images, etc. needed to display HTML page

请注意你没有改变任何链接，则WARC保留原始网页。是重播软件（openwayback，pywb）的作用，使得warc内容可以再次浏览。

，如果你需要去与蟒蛇： internetarchive/warc是默认的库

看看这个，如果你想手工制作一个WARC文件ampoffcom/htmlwarc

来源

2016-12-21 22:49:54

将网页和相关资源下载到python中的WARC中

回答

相关问题