我需要从大量的html页面中删除一些标签。 最近我在记事本++Notepad ++正则表达式删除样式
中发现了正则表达式的选项。 我需要什么?
例子:
<p class=MsoNormal style='margin-left:19.85pt;text-indent:-19.85pt'><spanlang=NL style='font-size:11.0pt;font-family:Symbol'>·<span style='font:7.0pt "Times New Roman"'> </span></span><span lang=NL style='font-size:9.0pt;font-family:"Arial","sans-serif"'>zware uitvoering met doorzichtige vulruimte;</span></p>
我需要删除有关的造型,类和id的一切。所以我只需要有干净的标签没有别的。
任何人都可以帮助我在这一个?
亲切的问候
编辑 通过引擎收录检查整个文件:http://pastebin.com/0tNwGUWP
不要使用正则表达式来解析HTML:http://stackoverflow.com/a/1732454/2812842 –
'更正:'不要使用正则表达式来当嵌套在自己内部的标签涉及到时解析HTML –
你有'