2011-02-08 87 views
2

所以我仍然在研究这个解析器。今天我发现一个带有标签的文档<st1:place w:st="on"> Google告诉我这是一个Microsoft Office智能标签。什么是智能标签,如何从html中删除它们?

我想摆脱这些事情,但我找不到他们是什么或有多少他们的列表?

如果他们都遵循<...:...>模式,使用正则表达式很容易删除。

该文档没有文档类型和扩展名.jsp,但所有内容都在两个<html>标签之间,但是非标准的野兽是,我仍然需要解析它。

确定它实际上不是一个大问题,但它抛出我的格式&错误我。

+0

请参阅:http://stackoverflow.com/q/3801803/180136 – shamittomar 2011-02-08 05:08:01

回答

1

这个规则表达式应该做的伎俩:

/<[:alnum:]+:[\s\S]*>/ 

这将触发与<后跟一个字母数字图案后跟一个打开的任何标记“:”冒号。

或者:

/<\s*[:alnum:]+:[\s\S]*>/ 

将允许标签(开<和命名空间之间的空间)

-1

我们想删除<w:smartTag>什么列示如下是帮助我们的宽松格式。

/<w:smartTag[^>]*>/