如何使用python废除任何网站的“下载页面”

-1

我想要使用python的任何网站的废料下载页面来提取有关版本及其下载链接的信息。我正在学python，想用beautifulsoup来做，但这些页面非常复杂，看起来很难找到这个东西。在此先感谢如何使用python废除任何网站的“下载页面”

你的问题是如此模糊，没有人敢回答:) – xtofl

欢迎来到堆栈溢出！ - 我猜你的意思是“刮”，因为“废”意味着“扔掉”。

首先，您必须使用urllib2来创建您想要刮取的页面的文件对象。阅读this了解如何。

然后，您必须通过检查页面的html内容来找出您想要从页面本身获得什么信息。

最后，您将文件对象传递给美丽的汤姆的解析器，并导航HTML以返回您正在寻找的信息。

为了将来的参考，BeautifulSoup有漂亮的文档。如果你想要善于编程，你必须学习如何阅读文档 - 它实际上只是从这里变得更加困难。

2012-11-08 17:48:19 kreativitea

除非完全必要的，我倾向于避免'赞成http://docs.python-requests.org/en/latest/ –

@JonClements的urllib2'我如果有人说他们是初学者，我通常会根据标准库提供建议。请求是几个月（或几周，或几年，取决于学生如何投入）。 – kreativitea

回答