我有这样的代码,抓住从网页指定的文本:替代的foreach输出
static void Main(string[] args)
{
using (var client = new WebClient())
{
var pageContent = client.DownloadString("http://www.modern-railways.com");
var regexTitle = new Regex(@"<span class='articleTitle'>(.+?)</span>");
var regexDate = new Regex(@"class='summaryText' data-ajax='false'>(.+?)</a></p><div");
foreach (Match title in regexTitle.Matches(pageContent))
{
var articleTitle = title.Groups[1].Value;
Console.WriteLine(articleTitle);
}
foreach (Match date in regexDate.Matches(pageContent))
{
var articleDate = date.Groups[1].Value;
Console.WriteLine(articleDate);
}
Console.ReadLine();
}
}
因为它是现在它第一次,然后打印所有articleTitle所有articleDate。我怎样才能摆脱第一线的ArticleTitle,第二线的文章日期等?
不要试图用正则表达式来解析HTML。使用专门设计用于解析HTML的工具,如HTML Agility Pack。 –