2011-08-26 113 views
0

我需要解析多个(读取大约1600个)HTML页面,并从每个文件中拉出以下标记的内容。格式错误的XML/HTML解析

 
    textarea name="line" cols="66" rows="5" class="textbox" id="line" style="font-size:12px;" onkeydown="textCounter()" onkeyup="textCounter(); storeCaret(this);" onselect="storeCaret(this);" onclick="storeCaret(this);">TEXT I WANT IS HERE 

(这实际上意味着是一个HTML textarea标签) 我原以为我可以使用的DOMParser但这些文件包含了太多的错误,所以我碰到JTidy,从另外一个问题在这里计算器,我试图使用它...

但是,似乎无法将HTML从任何页面转换为XHTML,因此我可以使用DOM解析器。

我当时以为我可以使用正则表达式,但我想不出相当发现拉文本所需要的特定表达,我也碰到多个问题/解答该说不能使用正则表达式来解析HTML ...

基本上我的问题是有没有其他的方法来获取我需要从一个格式错误的HTML文本?

回答

1

您应该能够直接解析您的文档,而不必将它们转换为XHTML。我曾多次做过,不久之前,但它对我来说很好,并且HTML格式很丑。

编辑:我上一次需要解析HTML文件的另一个选项是TagSoup。由于其GPL许可证,我无法在商业产品中使用它,但如果您只是需要此功能作为内部工具,它可能适用于您

+0

干杯我会看看tagsoup ... –

+0

Im去接受这个答案,因为我认为TagSoup是他要走的路,尽管我无法让它工作。 我设法通过恢复使用正则表达式解决我的问题,我发现了一种适用于我的模式... –