所以我仍然在研究这个解析器。今天我发现一个带有标签的文档<st1:place w:st="on">
Google告诉我这是一个Microsoft Office智能标签。什么是智能标签,如何从html中删除它们?
我想摆脱这些事情,但我找不到他们是什么或有多少他们的列表?
如果他们都遵循<...:...>
模式,使用正则表达式很容易删除。
该文档没有文档类型和扩展名.jsp,但所有内容都在两个<html>
标签之间,但是非标准的野兽是,我仍然需要解析它。
确定它实际上不是一个大问题,但它抛出我的格式&错误我。
请参阅:http://stackoverflow.com/q/3801803/180136 – shamittomar 2011-02-08 05:08:01