2013-09-25 41 views
-1

我想通过提供包含其URL的列表的文件来下载网页源代码。 例如,我有一个具有以下网址通过提供包含多个URL的文件来检索网页源代码

http://www.adobe.com/support/security/bulletins/apsb09-19.html 
http://www.adobe.com/support/security/bulletins/apsb09-20.html                         

文件我可以使用它,因为urllib我想用Python模块不是Unix命令(像wget)呢?

我想读取这个文件,并将每个URL作为urlopen或urlretrieve的输入,谁能告诉我该怎么做?

+0

您是否遇到了特定问题?你有什么尝试? – nofinator

+0

'wget -i ' –

+0

我不知道该怎么做,没有试过任何东西...... – Naive

回答

1

试着尽可能最好地分解问题。你有一个文本文件,每一个URL都列在它自己的行上。您知道Python对逐行读取有很大的支持,这要归功于open(),您可能熟悉urllibrequests,具体取决于您的偏好。

因此,所有你需要做的是:

  1. Open the file

  2. Read line by line

  3. 使用行作为一个URL字符串

  4. 使用发送到URL的请求urllibrequests

  5. 捕获输出,并对其进行解析/保存

大功告成!

+0

可以告诉我如何使用该行作为URL字符串... ? – Naive

+0

@ Kummi_10你已经将这行代码读入Python中,然后你需要将该字符串变量传递给负责这个的urllib/requests方法。在'2.'中列出的答案中,您可以看到他如何读取每行并将其称为'行'。如果你打电话给你的url,并执行'requests.get(url)',你应该是一个很好的地方来解决其余的问题。 – TankorSmash

+0

非常感谢你............. :) – Naive

相关问题