取href's
和其他类型的可以嵌入URL的标签。总之,从给定的网页链接获取所有URL's
。有很多取得URL's
的方法,即正则表达式,HtmlAgilityPack,Dcsoup等......我想知道哪一个最好?内部和外部链接
内部和外部链接
回答
您需要使用类似HtmlAgilityPack的内容来解析HTML文档。您还需要使用XPath轻松解析HTML。
正则表达式也可以使用,但使用XPath更适合这项工作。
你可以给我一些使用HtmlAgilityPack的教程的链接因为我什么都没发现。 – 2015-04-03 11:00:37
XPath的问题在于,HTML文档可能无法正确格式化。这是XPath的要求之一。 – Fka 2015-04-03 11:34:48
@MAdeelKhalid http://www.4guysfromrolla.com/articles/011211-1.aspx – JunaidKirkire 2015-04-03 12:17:29
关于HtmlAgilityPack,这里是他们的示例代码示例:
HtmlDocument doc = new HtmlDocument();
doc.Load("file.htm");
foreach(HtmlNode link in doc.DocumentElement.SelectNodes("//a[@href"])
{
HtmlAttribute att = link["href"];
att.Value = FixLink(att);
}
doc.Save("file.htm");
它吸引有href
属性的所有<a>
元素。本示例从文件加载文档,但当然可以从字符串加载文档。
- 1. 内部和外部反向链接
- 2. 内联函数和外部链接
- 3. 外部链接
- 4. App Store和外部链接
- 5. 的WebView和外部链接
- 6. 外部链接或内部链接网址
- 7. HTML页面上的内部和外部链接是什么?
- 8. 内部和外部的链接列表元素不工作
- 9. 如何在外部和内部链接脚本?
- 10. 内部和外部链接之间的差异
- 11. Jscrollpane和内部锚链接
- 12. 混合SQL内部和外部连接
- 13. Fullcalendar - 外部链接
- 14. Joomla外部链接
- 15. Phonegap外部链接
- 16. JSF外部链接
- 17. 块链接内部链接
- 18. 复制变量内外部链接
- 19. Webview内部链接
- 20. mobile.changePage内部链接
- 21. preg_replace内部链接
- 22. Laravel内部链接
- 23. wkhtmltopdf内部链接
- 24. 内部和外部碎片
- 25. 内部连接,并外部联接
- 26. 外部链接永久链接
- 27. Scrapy:存储所有外部链接并抓取所有内部链接
- 28. GCC和NASM链接到外部库
- 29. RVM和GDAL - 链接外部库
- 30. jQuery UI选项卡和外部链接
HTML无法使用正则表达式进行分析。使用HTML解析器,如[HtmlAgilityPack](https://htmlagilitypack.codeplex.com/) – 2015-04-03 10:43:40
不确定是否“不能”是合适的词Panagiotis,但我会同意“不应该”。有很多更好的选项可用,比如你建议使用 – Sparky 2015-04-03 10:43:57
的Regex *可以用来分析HTML,但它就像试图用大锤在墙上钉一个钉子 – Claies 2015-04-03 10:50:16