使用XPath（和HtmlAgilityPack）从Html表中选择所有链接

我试图实现的是提取所有链接，其中包含以http：//，https：//或/开头的href属性。这些链接位于具有特定类别的表格（tbody> tr> td等）中。我以为我可以指定一个没有整个路径的元素，但它似乎不工作。使用XPath（和HtmlAgilityPack）从Html表中选择所有链接

var table = doc.DocumentNode.SelectSingleNode("//table[@class='containerTable']"); 
if (table != null) 
{ 
    foreach (HtmlNode item in table.SelectNodes("a[starts-with(@href, 'https://')]")) 
    { 
     //not working

我不知道任何建议或最佳实践，当涉及到的XPath：我在这个选择的链接线得到一个NullReferenceException。当我查询文档两次时，是否会创建开销？

来源

2010-03-20 Adam Asham

在我的解决方案中，我为所有应选择的三个不同的''节点提供一个XPath表达式。另外，在文档中查找所有''节点会更加精确和高效（作为另一个答案建议 - // a） – 2010-03-21 04:40:40

使用：

//tbody/descendant::a[starts-with(@href,'https://') 
        or 
         starts-with(@href,'http://') 
        or 
         starts-with(@href,'./') 
         ]

您仍然有问题，除非你改正你的代码，以反映事实的 XmlNode.SelectNodes()实例方法有XmlNodeList，不HtmlNode返回类型。

来源

2010-03-21 04:37:28

@Tomalak，感谢您修正了错字。 – 2010-03-22 12:28:02

问题是，您选择的表，然后立即试图选择锚点，就好像他们是直接的死者。中间有tr和td标签。

所以，如果你改变你的XPath来下面，事情应该工作：

"tbody/tr/td/a[starts-with(@href, 'https://')]"

如果你的锚别的东西包裹起来这是行不通的，所以你可以选择锚所有在当前的节点集（即表）：

"//a[starts-with(@href, 'https://')]"

为XPath语法更详细地参见this。

来源

2010-03-20 22:28:02 Oded

使用XPath（和HtmlAgilityPack）从Html表中选择所有链接

回答

相关问题