有很多答案对这个问题,但不是一个单一的完整的一个:正则表达式来获得页面的标题
使用一个正则表达式,你怎么提取<title>Page title</title>
页面标题?
还有其他一些情况下,标题标签是如何输入,如:
<TITLE>Page title</TITLE>
<title>
Page title</title>
<title>
Page title
</title>
<title lang="en-US">Page title</title>
...或以上的任意组合。
,它可以在自己的行或在其他标记之间:
<head>
<title>Page title</title>
</head>
<head><title>Page title</title></head>
感谢提前的帮助。
UDPATE:所以,正则表达式可能不是最好的解决方案。哪个基于PHP的HTML解析器可以处理所有情况,哪里的HTML格式良好(或者不太好)?
更新2:sp00m的正则表达式(https://stackoverflow.com/a/13510307/1844607)似乎在所有情况下都能正常工作。如有需要,我会回来。
那的原因之一,为什么正则表达式是这个职位的错误的工具。你为什么不使用一个html解析器? – stema
基于PHP的HTML解析器使用的任何想法? – Jari
很好的问题+1对于这个 –