我有以下的HTML字符串:查找重复<br>'s之间有一定<span>
<span class='together'>line one,<br><span class='indent'>line two.</span><br>Line three,<br><span class='indent'>line four,<br>line five,<br>line six,<br>line seven;<br>line eight.<br>Line nine;<br>line ten,<br>line eleven,<br>line twelve.</span><br>Line thriteen,<br><span class='indent'>line fourteen,<br>line fifteen,<br>line sixteen,<br>line seventeen,<br>line eighteen.</span></span>
我试图找到一个正则表达式,会发现所有的<br>
的属于<span class='indent'>
之间,它的关闭</span>
。 <span class='together'>
封装了整个刺痛,应该被忽略。
目前我能做的最好的是:<span class='indent'>.*?(<br>).*?<\/span>
哪一个根本不起作用。第一个<br>
这个抓取是在<span>
之外,然后它跳过了我想要的其他一些<br>
(See here)。
这可能吗?我是否应该使用<span class='indent'>(.*?)\<\/span>
,然后再解析捕获的组?
正如你可以告诉我的正则表达式知识是相当有限的。
通常,不要使用正则表达式来解析HTML,请使用解析器。 –
[**不要用REGEX **分析HTML](http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454) –
你使用哪种语言? – hjpotter92