2009-12-20 143 views
1

快速的问题......我可以然而创建/使用libxml2dom解析HTML的一大块,等...蟒蛇libxml2dom XPath的问题

,有没有办法以某种方式显示用于生成的XPath /解压缩HTML块..我假设有这样做,我不能找到一些方法/方式..

例如:

import libxml2dom 
d = libxml2dom.parseString(s, html=1) 

## 

hdr="//div[3]/table[1]/tr/th" 

thdr_ = d.xpath(hdr) 
print "lent = ",len(thdr_) 

在这一点上,thdr_是对象的数组/列表。 。其中每一个指向一大块HTML(如果你愿意的话)

我试图找出是否有一种方式来获得,也就是说,XPath来说,名单的thdr_ [X]元/项...

即:

thdr_[0]=//div[3]/table[1]/tr[0]/th 
thdr_[1]=//div[3]/table[1]/tr[1]/th 
thdr_[2]=//div[3]/table[1]/tr[2]/th 
. 
. 
. 

任何想法/意见..

感谢

-Tom

+0

请参阅[签名常见问题](http://stackoverflow.com/faq#signatures)。你真的应该阅读常见问题的其他部分,以了解如何发布质量问题;无论如何,这会让你获得[徽章](http://stackoverflow.com/badges/1306/analytical)。 – 2011-12-19 20:45:51

回答

0

我是通过遍历每个节点和的textContent与我预期的文本比较,这样做。对于模糊比较,我使用了difflib的SequenceMatcher类。