2010-07-30 41 views
1

我想使用正则表达式提取表格的内容。使用正则表达式解析HTML表格

我已经从表中删除了大部分标签,我被卡住了<br> , <a href >, <img > & <b>如何删除它们?

<b>标签我想这正则表达式

\s*<b[^>]*>\s* 
(?<value>.*?) 
\s* </b>\s* 

它的工作对一些线条和它的一些给予了把尽可能

<b class="saadirheader">Email:</b> 

谁能帮助我消除这些标签

<br> , <a href >, <img > and <b> 

完整标签: -

<img src="Newrecord_files/spacer.gif" alt="" border="0" height="1" width="5"> 

<a href="mailto:[email protected]"> 

感谢你,

纳文HS

+0

您是否已经知道['strip_tags'](http://php.net/strip_tags)? – Gumbo 2010-07-30 09:48:07

+3

此外,强制性链接:http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454 – Amadan 2010-07-30 09:49:29

+0

您可能还想了解贪婪和不贪婪的表达。即在 vs ] *> – relet 2010-07-30 09:52:52

回答

1

使用下面的正则表达式:

(?:<br|<a href|<img|<b)(?:.(?!>))*.> 

这个表达式将匹配您在上面提到的所有标签,如果有更多的标签,你忘了提及只需添加一个“|”用您想添加的标签签名,并将其插入第一个圆括号中。