我正在C#.net中制作一个项目,其中我必须获取网页的源代码并识别一些特定的标签。使用字符串如何获取图像标签在C#中的HTML?
例如,我必须找到所有在代码中
<img>
标签。我必须将它存储在一个变量中。
我成功地通过我的c#.net应用程序获取网页源代码的第一步。 我不知道如何获得一个标签并将其位置存储在一个变量中?
给我一个sugesstion
我正在C#.net中制作一个项目,其中我必须获取网页的源代码并识别一些特定的标签。使用字符串如何获取图像标签在C#中的HTML?
例如,我必须找到所有在代码中
<img>
标签。我必须将它存储在一个变量中。
我成功地通过我的c#.net应用程序获取网页源代码的第一步。 我不知道如何获得一个标签并将其位置存储在一个变量中?
给我一个sugesstion
为了解析HTML使用专用库,如HtmlAgilityPack,但avoid using regular expressions。
这里是an example on extracting links from a snippet of HTML,你可以适应它来获得img标签。
我建议使用HtmlAgitityPack进行这项工作,它使用原始html标记非常灵活,可以获得带标记的内容。 :
HtmlDocument htmlDocument = new HtmlDocument();
htmlDocument.LoadHtml("<html><head></head><body><div><img /><div><img /><img/></div></div><img/></body></html>");
var nodes = htmlDocument.DocumentNode.SelectNodes("//img");
// 4 nodes found
foreach (var node in nodes)
{
// do stuff
}