2013-07-03 53 views
2

我试图解析并从包含CSS和当然HTML的网页中提取一些信息。我正在使用cssutils和beatifulsoup。可以说我想找出用于表格标题的字体大小。 Beautifulsoup告诉我表格定义在HTML中的位置。但是如果我想知道表格中使用了哪种风格,我是否可以从BeatifulSoup那里获得这些信息?如果不是,我该如何解决这个问题。谢谢你的帮助。如何使用python解析包含CSS和HTML的网页

+0

你能给示例代码? –

回答

0

是的,你明白了。 BeautifulSoup是完美的选择,并用正则表达式是强劲的动力:)

例子:

import re 
from BeautifulSoup import BeautifulSoup 


soup = BeautifulSoup('<h1 style="font-size: 12px; margin: 5px">Test</h>') 
style = soup.find('h1')['style'] 
re.findall('font-size[^;]+', style) 
# [u'font-size: 12px']