鉴于this页,我在寻找脱身样式ID值:如何使用lxml(或BeautifulSoup)提取两个跨度之间的文本?
我得到的唯一的选择使用浏览器的开发者工具:
li.attribute-list-item:nth-child(1) > span:nth-child(1)
这样的话与urllib2
和lxml
的CSS功能:
import urllib2
from lxml import etree
from lxml.cssselect import CSSSelector
req = urllib2.Request(url, headers={'User-Agent' : "Magic Browser"})
con = urllib2.urlopen(req)
htmlparser = etree.HTMLParser()
tree = etree.parse(con, htmlparser)
x = CSSSelector('li.attribute-list-item:nth-child(1) > span:nth-child(1)')
如果我再拿到X(树)的单个元素的文本值:
它给我的文字“风格ID”,而不是它后面的实际值。下面是它的外观:
如何走出数(在这个例子中,555088 117)?我也欢迎BeautifulSoup
的建议。
编辑:我特别寻求基于CSS(类名或选择器)的方法。
如果我想强调在Firebug或开发工具本身的数量,没有给我任何的方式来识别它(通过CSS,XPath或其他) – Pyderman