我几乎没有编程经验,所以请原谅我的无知。用Python重新排列解析的HTML数据
我试图从雅虎解析'重要统计'页面。财务,具体要this页面。我一直在与BeautifulSoup玩弄,并且能够提取我想要的数据,但之后就陷入了精神障碍。我想数据显示如下:
measure[i]: value[i]
.
.
measure[n]: value[n]
,但我有我的脚本得到的结果是:
measure[i]
.
.
measure[n]
value[i]
.
.
value[n]
这是我加入两个数据字段的探索与尝试,其引发错误:
measure = soup.findAll('td', {'class':'yfnc_tablehead1'}, width='74%')
value = soup.findAll('td', {'class':'yfnc_tabledata1'})
for incident in measure:
x = incident.contents
for incident2 in value:
y = incident2.contents
data = x + y
print ': '.join(data)
此外,我想删除这些值中有不需要的字符,但我会阅读re.compile和re.sub文档。
谢谢你的任何意见。
谢谢您的帮助。您的方法实际上消除了我需要进入并删除不需要的标签,但正如您所提到的,只显示最后一个值。你会建议用什么(高效)的方法来替换我为了显示所有值的集合而实现的'for'循环? – user1205632 2012-02-15 04:33:43
请忽略该评论!我取消了for循环并实施了您的建议。现在只需要使用BeautifulSoup并清理不需要的标签。 – user1205632 2012-02-15 04:43:34