2012-06-06 68 views
0

大家好,我设置了一个挑战,在那里我必须通过HTML页面解析以找到所有类的结束日期。我正在使用HTMLAgilityPack,但是,这是我第一次使用它,也没有设置它的网页没有类或Id,并且结束日期存储在Tr H4标记中。我不知道如何通过任何命中解析?解析HTML标签以查找特定的表格行

我的代码:

HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument(); 
doc.Load(txtURL.Text); 

sw.WriteLine("GET /academics/academic-calendar/ HTTP/1.1"); 
sw.WriteLine(); 
String response = sr.ReadToEnd(); 

txtHTML.Text = response; 

回答

1

HtmlDocument对象可以查询 - 您可以使用XPath发现,遵循特定的路径,或者其他约束的所有元素,你也可以使用LINQ查询。

我建议下载源码包 - 它带有许多使用示例的项目。

+0

你有链接可直接下载吗? – moutonc

+0

@moutonc - 真的吗?这对你来说是个问题? http://htmlagilitypack.codeplex.com/downloads/get/120937 – Oded

+0

是的对不起,我的Google技巧,我忘了我有这只是我需要看看谢谢! +1 +回答 – moutonc

1

使用XPath可以让你得到你所需要的。 下面是如何从声明的html中获取所有表行的示例。

HtmlDocument htmlDocument = Markup.Parser();         
htmlDocument.LoadHtml(html); 
htmlDocument.DocumentNode.SelectNodes("/tr"); 
+0

不错,不应该只是这么简单吗? – LoneXcoder