用海葵爬行子域

我正在使用海葵。我该如何抓取子域名？例如，如果我有网站www.abc.com我的爬虫应该也爬行support.abc.com或blah.abc.com。我使用Ruby 1.8.7和Rails 3.用海葵爬行子域

为什么这是一个Rails或Nokogiri的问题？ – 2012-02-15 18:14:47

我删除了rails和nokogiri标签：它们不是这个问题的核心。 – 2012-06-21 16:35:17

这是Github上的一个提交，它解决了您的问题。

更改海葵宝石文件按链接。

2012-02-16 22:40:56 sunnyrjuneja

-2

按照Anemone docs你可以通过多个站点到crawl命令：

Anemone.crawl("http://www.abc.com/", "http://support.abc.com/", "http://blah.abc.com/")

当然，你的下一个问题可能会被ABC禁止你的爬行他们的网站，但这是一个不同的问题。

2012-02-15 18:17:37

如果我不知道子域名，该怎么办？ – 2012-02-16 06:35:42

如果您不知道子域名，则必须通过搜索从第一个页面检索到的链接来尝试找到它们，以查找起始域的其他子域或似乎是兄弟域的网站一。然后产生二次抓取。 – 2012-02-17 18:57:18

回答