使用Go lang从网页中提取链接

Go html包已移至[go.net]（https://code.google.com/p/ go/source/browse？repo = net＃hg％2Fhtml）回购。 [Here]（http://godoc.org/code.google.com/p/go.net/html）是文档。 – ctn

@ctn感谢您的更新。不知道为什么你的编辑被拒绝：我已经在答案中恢复了它。 – VonC

谢谢。他们说这会改变原来的意思，我最好留下评论。 – ctn

我搜索了一下，发现有一个名为Gokogiri的库，它听起来和Ruby的Nogokiri一样。我认为该项目也是active。

来源

2013-05-17 05:09:26

如果您了解jQuery，您一定会喜欢GoQuery。

说实话，它是我在Go中找到的最简单，最强大的HTML工具，它基于go.net存储库中的html包。（好吧，所以它的级别高于只是一个解析器，因为它不暴露原始的HTML标记之类的，但如果你想真正得到任何与HTML文档完成后，这个软件包将帮助。）

来源

2014-08-02 23:03:46 Matt

太棒了。非常感谢。 –

我刚刚为Go发布了一个基于事件的基于事件的HTML 5.0兼容解析包。您可以find it here

下面是示例代码从一个页面中的所有链接（从A元素）：

links := make([]string) 

parser := NewParser(htmlContent) 

parser.Parse(nil, func(e *HtmlElement, isEmpty bool) { 
    if e.TagName == "link" { 
     link,_ := e.GetAttributeValue("href") 
     if(link != "") { 
      links = appends(links, link) 
     } 
    } 
}, nil)

有几件事情要记住：

这些都是相对的链接，而不是完整的网址
不会收集动态生成的链接
还有其他链接未被收集（META标签，图片，iframe，等等。）。修改此代码以收集这些代码非常简单。

来源

2015-09-13 04:21:05

使用Go lang从网页中提取链接

回答

相关问题