我想用脚本获取本网站的所有图片。我使用Chrome开发人员工具查看了他主页的源代码。这些图像的URL就像如何在本网站下载所有图片:huaban.com
src="http://img.hb.aicdn.com/3e32a8b101e515b9e7dbe8f5a2e47afff5ec6bcf4e4a-OTvsuu_fw192
但是,如果使用wget
或curl
下载该网页,甚至是“保存铺路”在浏览器中,存在这样的HTML文件没有这样的链接。我不知道如何获得所有这些链接。另一个问题是,如果我们向下滚动页面,图像会持续出现。我不知道是否有任何方法获得整个页面。
“这个html文件中没有这样的链接”?意味着什么? –
如果从wget返回的html没有链接,并且它们在您滚动时一直出现,我会猜测它们是使用javascript动态加载的。因此,您需要一个可以在解析html之前运行javascript的库,或者从浏览器复制“生成的”源。 –
表示在下载的html中没有img url。 – JeromeCui