我想删除HTML文件中的表格,具体来说,下面的文档,我想删除标签<TABLE....> and </TABLE>
内的任何东西。该文档包含多个表格,其中包含文本。正则表达式来解析HTML表格
然而,我提出的表达式<TABLE.*>\s*[\s|\S]*</TABLE>\s*
会删除表格之间的文本。实际上,它会移除第一个<TABLE>
和最后一个</TABLE>
标记之间的所有内容。我想保留文字,只删除表格。任何建议,非常感谢。谢谢。
====================
<TABLE STYLE=xxx, Font=yyy, etc>
table texts that should be DELETED...
</TABLE>
other texts that should be KEPT...
<TABLE STYLE=xxx, Font=yyy, etc>
table texts that should be DELETED...
</TABLE>
==========================================
**只是。不要。**可能的重复[RegEx匹配开放标签,除了XHTML独立标签](http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-标签) – 2010-12-19 15:19:26
正则表达式匹配_“常规”_语言。 HTML不规则。不要试图用正则表达式解析它。 – Phrogz 2010-12-19 16:22:47