1
我有兴趣下载以便稍后分析一堆网页。有两件事我想要做:将网页和相关资源下载到python中的WARC中
- 将页面和相关资源(图像,与文章关联的多个页面等)下载到WARC文件。
- 将所有链接更改为指向现在的本地文件。
我想用Python做到这一点。
有没有这样做的好库? Scrapy似乎被设计为刮取网站,而不是单个页面,我不知道如何生成WARC文件。如果没有更多的python native,调用wget是一个可行的解决方案。 Heritrix是完全矫枉过正的,而不是Python的解决方案。如果它有一个很好的文档化的Python库,wpull将是理想的,但它似乎主要是一个应用程序。
还有其他想法吗?