这是我的正则表达式与类获取所有标签:正则表达式来排除一些
preg_match_all('/<\s*\w*\s*class\s*=\s*"?\s*([\w\s%#\/\.;:_-]*)\s*"?.*?>/',file,$matches);
它带班的所有标签匹配像<a class="abc">
的问题是,如果任何标记包含类比以前额外属性这个正则表达式无法得到它。
例如为:<a id="fig_3_1" class="figure-contents">
我想忽略fig_3_1
任何想法将它排除在外<a class="figure-contents">
?
使用HTML解析器,而不是正则表达式。 – Phylogenesis