解析远程Web使用Python BeautifulSoup

https://stackoverflow.com/a/64983/468251 - 您好，我有问题，这个代码，如何做出与远程网站的网址的工作，以及如何获得价值= fooId [“值”]从所有的投入，没有只从第一？解析远程Web使用Python BeautifulSoup

2012-01-12 Rambo

您可以发布您对该答案的信息的请求。不要在此发布新问题。为现有答案添加评论。 – 2012-01-12 15:26:35

的例子使用本地文件。如果你想使用远程站点，你需要从服务器下载文件并解析html。

你可以看一下request或urllib2此。

我希望它能帮助

2012-01-12 15:29:14 luc

import urllib2 urllib2.urlopen（'http：// ...'）.read（）工作，但如何从soup.findAll中获取元素（这里有soup.find的示例）？:) – Rambo 2012-01-12 15:37:38

from doc： find方法几乎和findAll完全一样，除了找到所有匹配的对象，它只找到第一个。 – luc 2012-01-12 15:52:33

当你在互联网上解析URL，你需要找到一种方法，先下载网页内容的HTML。有很多很棒的图书馆，比如请求，据说这对Python来说是最好的。假设你要分析https://stackoverflow.com/

import requests 
response = requests.get("https://stackoverflow.com/") 
page_html = response.text

的page_html是Python字符串的HTML页面，那么你可以把它像一个本地HTML文件，瓶坯任何一种分析他们的。

至于获取模式的所有发生，你可以做soup.findAll('input',name='fooId',type='hidden')，而不是soup.find()。 soup.findAll将返回所有发生的列表。

2017-08-03 03:14:45 Shawn

回答