欲从包含HTML内容中,(<a>
和<span>
标记)的第一次出现之间的文本字符串中提取。正则表达式模式匹配
我的模式是如下:
$pattern='/<a[^(span)][\/\(\)-:@!%*>#=_|?$&";.\w\s]+<\/a> <span/um';
我得到的输出为<a
月1日发生的<span
末次出现和两个第一次发生之间没有文本之间的文本。
例如,HTML内容:
<a href="#">asdasdasd</a> <span blah blah></span> blah blah <a>blah </a> <span>blah
旺旺:
<a href="#">asdasdasd</a> <span
获取:
<a href="#">asdasdasd</a> <span blah blah></span> blah blah <a>blah </a> <span
我知道这不会回答你的问题,我会建议不要使用正则表达式解析HTML。为什么不尝试这样的事情[DOM解析器(http://simplehtmldom.sourceforge.net/),并节省一些时间。 – noel
使用合适解析器。 –
知道DOM解析器,但使用正则表达式的原因必须在分配。学习正则表达式。 –