2011-07-08 27 views
0

我想刮掉一些使用lxml嵌套窗体元素的html页面。即使在这些页面上的BeautifulSoup扼流器,我发现迄今为止唯一能够处理它们的解析器是MinimalSoup,它不知道哪些标记可以嵌套或不嵌套。如何使用lxml处理嵌套窗体标记

lxml是否有任何不关心嵌套窗体标签的解析器? 还有其他建议吗?如果我不得不我要继续使用MinimalSoup。

+1

你能提供一个链接到你正在试图抓取的页面,并说出你遇到的问题是什么数据? – mac

+0

页面需要登录,所以我无法提供链接 – cerberos

回答

1

lxml.etree.HTMLParser?这应该工作得相当好,对吗?

import urllib2 
import lxml.etree as etree 
page = urllib2.urlopen(url) 
parser = etree.HTMLParser() 
tree = etree.parse(page,parser) 

,你有你的树!

+0

它的工作原理,谢谢。 – cerberos

+0

您的欢迎,谢谢 –

相关问题