2012-11-08 51 views
-1

我想要使用python的任何网站的废料下载页面来提取有关版本及其下载链接的信息。 我正在学python,想用beautifulsoup来做,但这些页面非常复杂,看起来很难找到这个东西。 在此先感谢如何使用python废除任何网站的“下载页面”

+3

你的问题是如此模糊,没有人敢回答:) – xtofl

回答

3

欢迎来到堆栈溢出! - 我猜你的意思是“刮”,因为“废”意味着“扔掉”。

首先,您必须使用urllib2来创建您想要刮取的页面的文件对象。阅读this了解如何。

然后,您必须通过检查页面的html内容来找出您想要从页面本身获得什么信息。

最后,您将文件对象传递给美丽的汤姆的解析器,并导航HTML以返回您正在寻找的信息。

为了将来的参考,BeautifulSoup有漂亮的文档。如果你想要善于编程,你必须学习如何阅读文档 - 它实际上只是从这里变得更加困难。

+0

除非完全必要的,我倾向于避免'赞成http://docs.python-requests.org/en/latest/ –

+0

@JonClements的urllib2'我如果有人说他们是初学者,我通常会根据标准库提供建议。请求是几个月(或几周,或几年,取决于学生如何投入)。 – kreativitea

相关问题