我正在将数据从1个数据库导入到另一个数据库。我一直要求去除所有的HTML内容,因为它的混乱和无效的,并且只保留链接去除除锚定标记之外的所有HTML标记
我目前使用下面的VB.NET功能,从内容的字符串中去除所有的HTML标签:
Public Shared Function StripHTML(ByVal htmlString As String) As String
Dim pattern As String = "<(.|\n)*?>"
Return Regex.Replace(htmlString, pattern, String.Empty)
End Function
我正在寻找一种剥离所有内容的方式,但从内容中剥离a
(锚点)标记。
举例来说,如果我有以下HTML内容:
<table>
<tr>
<td>
Lorem <a href="http://google.com">Ipsum</a>
</td>
</tr>
</table>
这简直成了:
Lorem <a href="http://google.com">Ipsum</a>
我怎样才能做到这一点?
你能不能给我们介绍一下你的任务一点点的更多信息?你想达到什么目的? –
我正在将数据从1个数据库导入到另一个数据库。我被要求去掉所有的HTML内容,因为它的混乱和无效,只是保持链接 – Curt