通过提供包含多个URL的文件来检索网页源代码

-1

我想通过提供包含其URL的列表的文件来下载网页源代码。例如，我有一个具有以下网址通过提供包含多个URL的文件来检索网页源代码

http://www.adobe.com/support/security/bulletins/apsb09-19.html 
http://www.adobe.com/support/security/bulletins/apsb09-20.html

文件我可以使用它，因为urllib我想用Python模块不是Unix命令（像wget）呢？

我想读取这个文件，并将每个URL作为urlopen或urlretrieve的输入，谁能告诉我该怎么做？

来源

2013-09-25 Naive

您是否遇到了特定问题？你有什么尝试？ – nofinator

'wget -i ' –

我不知道该怎么做，没有试过任何东西...... – Naive

试着尽可能最好地分解问题。你有一个文本文件，每一个URL都列在它自己的行上。您知道Python对逐行读取有很大的支持，这要归功于open()，您可能熟悉urllib或requests，具体取决于您的偏好。

因此，所有你需要做的是：

Open the file
Read line by line
使用行作为一个URL字符串
使用发送到URL的请求urllib或requests
捕获输出，并对其进行解析/保存

大功告成！

来源

2013-09-25 15:12:02 TankorSmash

可以告诉我如何使用该行作为URL字符串... ？ – Naive

@ Kummi_10你已经将这行代码读入Python中，然后你需要将该字符串变量传递给负责这个的urllib/requests方法。在'2.'中列出的答案中，您可以看到他如何读取每行并将其称为'行'。如果你打电话给你的url，并执行'requests.get（url）'，你应该是一个很好的地方来解决其余的问题。 – TankorSmash

非常感谢你............. :) – Naive

通过提供包含多个URL的文件来检索网页源代码

回答

相关问题