2011-10-16 133 views
2

我是lxml的新手,想要从给定的url中提取<p>PARAGRAPHS</p><li>PARAGRAPHS</li>并将它们用于进一步的步骤。使用lxml解析HTML中的段落

我跟着一个例子从post,并试图与没有运气以下代码:

html = lxml.html('http://www.google.com/intl/en/about/corporate/index.html') 
url = 'http://www.google.com/intl/en/about/corporate/index.html' 
print html.parse.xpath('//p/text()') 

我试图寻找到的例子lxml.html,但使用的URL没有发现任何一例。

你能给我提示我应该使用什么方法吗?谢谢。

回答

7
import lxml.html 

htmltree = lxml.html.parse('http://www.google.com/intl/en/about/corporate/index.html') 

print htmltree.xpath('//p/text()')