2012-08-24 64 views
7

在我的代码中,我想删除没有src值的img标签。 我正在使用HTMLAgilitypack的HtmlDocument对象。 我找到img,它没有src值,并试图删除它..但它给了我错误集合被修改;枚举操作可能不会执行。 任何人都可以帮助我吗? 我所使用的代码是:从htmldocument删除html节点:HTMLAgilityPack

foreach (HtmlNode node in doc.DocumentNode.DescendantNodes()) 
{ 
    if (node.Name.ToLower() == "img") 
    {        
      string src = node.Attributes["src"].Value; 
      if (string.IsNullOrEmpty(src)) 
      { 
       node.ParentNode.RemoveChild(node, false);  
      } 
    } 
    else 
    { 
      ..........// i am performing other operations on document 
    } 
} 

回答

6

我所做的是:

List<string> xpaths = new List<string>(); 
    foreach (HtmlNode node in doc.DocumentNode.DescendantNodes()) 
    { 
         if (node.Name.ToLower() == "img") 
         { 
          string src = node.Attributes["src"].Value; 
          if (string.IsNullOrEmpty(src)) 
          { 
           xpaths.Add(node.XPath); 
           continue; 
          } 
         } 
    } 

    foreach (string xpath in xpaths) 
    { 
      doc.DocumentNode.SelectSingleNode(xpath).Remove(); 
    } 
17

看来您使用了HtmlNode.RemoveChild方法枚举过程中修改集合。

要解决此问题,您需要将您的节点复制到单独的列表/数组中,方法是调用Enumerable.ToList<T>()Enumerable.ToArray<T>()

var nodesToRemove = doc.DocumentNode 
    .SelectNodes("//img[not(string-length(normalize-space(@src)))]") 
    .ToList(); 

foreach (var node in nodesToRemove) 
    node.Remove(); 

如果我是对的,问题就会消失。

+0

感谢,这对我的作品..! – Priya

+0

@Piya,很高兴听到这个消息。但我认为通过使用一个xpath表达式更容易使代码更具可读性(只需选择要使用一个表达式删除的所有节点)。 – Alex

+0

,是的你说得对。可以,我会做的..再次感谢! – Priya

2
var emptyImages = doc.DocumentNode 
.Descendants("img") 
.Where(x => x.Attributes["src"] == null || x.Attributes["src"].Value == String.Empty) 
.Select(x => x.XPath) 
.ToList(); 

emptyImages.ForEach(xpath => { 
     var node = doc.DocumentNode.SelectSingleNode(xpath); 
     if (node != null) { node.Remove(); } 
    });