2011-11-18 37 views
3

我想解析大型HTML文档并从中提取信息,这样我就可以用我想要的数据创建JSON文档。我目前正在使用Nokogiri :: HTML :: SAX :: Parser来解析HTML文档,并且它工作得很好;但为了加快速度,我想使用更接近Nokogiri::XML::SAX::PushParser的东西,以便在下载HTML文档时开始解析。是否可以使用Nokogiri创建HTML推送解析器?

I've tried playing around与Nokogiri在PushParser中抛出一个HTML SAX解析器,但它一直给我语法错误,因为它仍将输入文档视为XML。可能有一个很好的理由,你为什么不能使用HTML的推式解析器方法,因为标签格式不正确等等,但我想知道是否有一种方法将Nokogiri的PushParser与HTML文档一起使用?

+1

我不相信这是可能的与Nokogiri。 (发表评论而不是回答,因为我不确定。) – Phrogz

回答

0

2011年12月,Nokogiri新增了HTML Push Parser。所以我想这回答了这个问题是否可能。