2011-12-13 253 views
1

从字符串获取html标记的最好和最干净的方法是什么?从字符串获取HTML标记

我有一个包含视频的多个嵌入标记的html字符串。有可以在HTML字符串

任意数量的嵌入标签的我想我可以做这样的事情,但它不可能是最好的办法:

string embedSrc = propertyText.Substring(propertyText.IndexOf("<embed"), (propertyText.IndexOf ("</embed") - propertyText.IndexOf("<embed") + 8)); 

回答

2

尝试使用HtmlAgilityPack轻松地解析它。如果不是,你可以使用正则表达式

+0

谢谢,但项目放在我的手中运行.Net 2.0和HtmlAgilityPack需要3.5。 – Andy 2011-12-14 08:27:11

+0

@Andy,来自我发布的链接:`此处发布在CodePlex上的版本适用于.NET Framework 2.0。如果您需要旧版本,请转到旧页面或给我留言。 ` – 2011-12-14 08:44:31

1

我认为你可以使用C#API。尝试使用XmlDocument的LoadXml(字符串)方法。之后,只需使用对象操作从中提取内部标签或文本即可。看看 XmlDocument from MSDN

1

塞巴斯蒂安有权利,找到一个图书馆和HtmlAgilityPack是一个不错的选择。如果你需要文档结构,这真的是最好的选择。

使用正则表达式解析通常被认为是HTML的禁忌。这真的取决于你想要从输入字符串中读出什么。我写了一个lightweight xml/html parser using Regex只是为了看到它完成。这可以为您提供所需的正则表达式模式。