2017-03-23 91 views
0

如何在python语言中使用wget来保存包含网页内容的网页,以便它可以离线查看?目前我使用下面的代码:如何使用wget在python下载网页(mhtml格式)

import wget 

driver.webdriver.Chrome() 
driver.get("http://www.yahoo.com") 
wget.download("http://www.yahoo.com", C:\\Users\\karanjuneja\\Downloads\\kj\\yahoo.mhtml") 

这工作和strores文件夹中的网页的MHTML版本,但是当你打开文件,你只能找到代码编写的,它如何出现不是页面线上。有什么建议么? 谢谢 Karan

+0

驱动程序命令不适用于我,但当我将它们评论出来时,第三个命令正常工作。只需要输出路径的起始引号。当他们需要时,你的例子中是否有缺失的代码?我在驱动程序命令上遇到的错误是驱动程序无法识别。第一次使用wget,所以任何帮助表示赞赏。 – TMWP

回答

0

此代码将帮助您创建一个网站的离线副本,您可以在没有互联网访问的情况下进行浏览。

wget --mirror --convert-links --adjust-extension --page-requisites 
--no-parent http://example.org 

--mirror - 使(其中包括)下载递归。

--convert-links - 将所有链接(也包括CSS样式表之类的东西)转换为相对的,所以它适合离线查看。

--adjust-extension - 根据文件的内容类型为文件名(html或css)添加合适的扩展名。

- 页面必备条件 - 下载正常显示页面所需的CSS样式表和图片等内容。

--no-parent - 当递归不上升到父目录时。它将限制下载到网站的一部分很有用。

感谢Guy Rutenberg在他的论坛上提供的代码也帮助了我。

+0

嗨Karthik,谢谢你的回复。我无法理解在哪里执行您提供的代码?我可以在上面的Python代码中嵌入此代码吗? –

+0

是的。您可以将其嵌入到您的代码中。或者,您也可以使用下面的代码。而不是wget -r你可以把我给你的一个 import os path = raw_input(“enter the url:”) os.system('wget -r -nd -l1 --no-parent -A mp3 %s'的%路径) –