2012-01-12 103 views

回答

1

的例子使用本地文件。如果你想使用远程站点,你需要从服务器下载文件并解析html。

你可以看一下requesturllib2此。

我希望它能帮助

+0

import urllib2 urllib2.urlopen('http:// ...').read() 工作,但如何从soup.findAll中获取元素(这里有soup.find的示例)?:) – Rambo 2012-01-12 15:37:38

+0

from doc: find方法几乎和findAll完全一样,除了找到所有匹配的对象,它只找到第一个。 – luc 2012-01-12 15:52:33

0

当你在互联网上解析URL,你需要找到一种方法,先下载网页内容的HTML。有很多很棒的图书馆,比如请求,据说这对Python来说是最好的。假设你要分析https://stackoverflow.com/

import requests 
response = requests.get("https://stackoverflow.com/") 
page_html = response.text 

的page_html是Python字符串的HTML页面,那么你可以把它像一个本地HTML文件,瓶坯任何一种分析他们的。

至于获取模式的所有发生,你可以做soup.findAll('input',name='fooId',type='hidden'),而不是soup.find()。 soup.findAll将返回所有发生的列表。