我全新的正则表达式,而我试图解决这两个以下问题:正则表达式来提取所有的链接和相应的链接文字
写的正则表达式提取所有链接和来自HTML页面的相应链接文本。例如,如果你想解析:
text1 <a href="http://example.com">hello, world</a> text2
并得到结果
http://example.com <tab> hello, world
做同样的事情,而且处理情况< ...>嵌套:
text1 <a href="http://example.com" onclick="javascript:alert('<b>text2</b>')">hello, world</a> text3
到目前为止,我仍然处在第一个问题上,并且我尝试了几种方法。我认为我的第一个最好的答案是正则表达式(?<=a href=\")(.*)(?=</a>)
它给了我:http://example.com">hello, world
这对我来说似乎很好,但我不知道我应该如何接近第二部分。任何帮助或见解将不胜感激。
正则表达式与嵌套不好。你应该考虑一个真正的html解析器。 –
http://stackoverflow.com/a/1732454/6779307 –
那么我该如何回答这个问题呢?只要说PLZ没有正则表达式的HTML解析? –