背景信息消毒特定HTML的算法: 我有大段文字,我经常在一个字符串从封装(使用LINQ)的XML文档。该字符串包含许多HTML,我需要为输出目的而保留这些HTML,但需要删除此字符串中偶尔出现的电子邮件和离散HTML链接。违规文本的例子是这样的:使用LINQ或C#从字符串
--<a href="mailto:[email protected]" target="_blank">John Smith</a> from <a href="http://www.agenericwebsite.com" target="_blank">Romanesque Architecture</a></p>
我需要能够做的是:
- 查找以下字符串:
<a href
- 删除该字符串和所有字符以下这通过串
>
- 此外,随时删除此字符串
</a>
有没有办法用LINQ,我可以轻松地做到这一点,或者我将不得不创建一个使用.NET字符串操作来实现这一目标的算法?
HTML敏捷性包 –
你为什么要使用LINQ?这看起来像正则表达式/字符串操作将更简单 –
+1 @AustinSalonen关于处理html的任何问题的唯一答案! Html和正则表达式是一个等待发生的事故。我喜欢正则表达式:) – Goran