需要帮助解析HTML标签之间的文本

好吧，问题是我有HTML字符串。我需要找到这样一个特定的格式：需要帮助解析HTML标签之间的文本

some text

是HTML的

，我需要提取some text，并保存到列表。怎样才能完成我的目标。

注意文内会出现这样的

<p> 
    Central: 
<span class="fieldText">Central_Local</span><br>Area Resolutoria: 
<span class="fieldText">Area_Resolutoria</span><br>VPI: 
<span class="fieldText">VIP</span><br>Ciudad: <span class="fieldText">Ciudad</span> <br>Estado: <span class="fieldText">Estado</span><br>Region <span class="fieldText">Region</span>  
</p>

来源

2011-07-13 Jorge

您可以尝试正则表达式：@"(.*?)" 如果用结合捕获它，你可以得到@"^(.*?(.*?).*?)+$"整个列表。

但事实是，你不应该使用XML或HTML的正则表达式 - 有很多解析器在那里，如其他人已经提到。

  string s = @" 
<p> 
    Central: 
<span class=""fieldText"">Central_Local</span><br>Area Resolutoria: 
<span class=""fieldText"">Area_Resolutoria</span><br>VPI: 
<span class=""fieldText"">VIP</span><br>Ciudad: <span class=""fieldText"">Ciudad</span> <br>Estado: <span class=""fieldText"">Estado</span><br>Region <span class=""fieldText"">Region</span>  
</p>"; 

      Match m = Regex.Match(s, @"^(.*?<span .*?>(.*?)</span>.*?)+$", RegexOptions.Singleline); 

      foreach (var capture in m.Groups[2].Captures) 
       Console.WriteLine(capture);

来源

2011-07-13 16:17:20

嗨，并感谢询问正则表达式运作良好，但只带来我的第一场比赛，我试图改变正则表达式加入'\ b'来获得所有的行，但它不起作用 – Jorge