我正尝试使用Python和BeautifulSoup访问特定td标签中的内容。我可以得到满足条件的第一个td标签(使用find),或者全部使用findAll。使用Python和BeautifulSoup解析表格
现在,我可以使用findAll,全部获取并获取我想要的内容,但这似乎效率低下(即使我对搜索设置了限制)。无论如何去符合我想要的标准的某个td标签?说第三个,还是第十个?
这里是我到目前为止的代码:
from __future__ import division
from __future__ import unicode_literals
from __future__ import print_function
from mechanize import Browser
from BeautifulSoup import BeautifulSoup
br = Browser()
url = "http://finance.yahoo.com/q/ks?s=goog+Key+Statistics"
page = br.open(url)
html = page.read()
soup = BeautifulSoup(html)
td = soup.findAll("td", {'class': 'yfnc_tablehead1'})
for x in range(len(td)):
var1 = td[x]
var2 = var1.contents[0]
print(var2)
Hrm,这可能会让我做我需要做的事情。下班后我会做一些测试。 –
我唯一发现的问题是,它是具有相同信息的相同标签。除非有能力检查一个孩子,也许。 –
是的,它是相同的标签,但您可以在决定是否返回true或false之前检查子标签,从而为您提供所需的所有标签。 – cerberos