如何使用lxml处理嵌套窗体标记

我想刮掉一些使用lxml嵌套窗体元素的html页面。即使在这些页面上的BeautifulSoup扼流器，我发现迄今为止唯一能够处理它们的解析器是MinimalSoup，它不知道哪些标记可以嵌套或不嵌套。如何使用lxml处理嵌套窗体标记

lxml是否有任何不关心嵌套窗体标签的解析器？还有其他建议吗？如果我不得不我要继续使用MinimalSoup。

2011-07-08 cerberos

你能提供一个链接到你正在试图抓取的页面，并说出你遇到的问题是什么数据？ – mac

页面需要登录，所以我无法提供链接 – cerberos

lxml.etree.HTMLParser？这应该工作得相当好，对吗？

import urllib2 
import lxml.etree as etree 
page = urllib2.urlopen(url) 
parser = etree.HTMLParser() 
tree = etree.parse(page,parser)

，你有你的树！

2011-08-01 21:54:06

它的工作原理，谢谢。 – cerberos

您的欢迎，谢谢 –

回答