我正在使用海葵。我该如何抓取子域名?例如,如果我有网站www.abc.com
我的爬虫应该也爬行support.abc.com
或blah.abc.com
。我使用Ruby 1.8.7和Rails 3.用海葵爬行子域
Q
用海葵爬行子域
3
A
回答
4
这是Github上的一个提交,它解决了您的问题。
https://github.com/runa/anemone/commit/91559bde052956cfc40ae62678ec2a61574cf928
更改海葵宝石文件按链接。
-2
按照Anemone docs你可以通过多个站点到crawl
命令:
Anemone.crawl("http://www.abc.com/", "http://support.abc.com/", "http://blah.abc.com/")
当然,你的下一个问题可能会被ABC禁止你的爬行他们的网站,但这是一个不同的问题。
+0
如果我不知道子域名,该怎么办? – 2012-02-16 06:35:42
+0
如果您不知道子域名,则必须通过搜索从第一个页面检索到的链接来尝试找到它们,以查找起始域的其他子域或似乎是兄弟域的网站一。然后产生二次抓取。 – 2012-02-17 18:57:18
相关问题
- 1. 错误使用海葵
- 2. 用paper.js创建海葵?
- 3. 海葵与Rails和MongoDB
- 4. 如何只使用海葵抓取子文件夹
- 5. 海葵在第一页打印链接
- 6. 爬行与子域的.net网站
- 7. 海葵红宝石蜘蛛 - 创建不带域名的键值数组
- 8. 如何用红宝石/海葵/ nokogiri从网站刮擦产品
- 9. 子域vs子目录阻止爬虫
- 10. 使用龙葵
- 11. 海葵擦洗一定的页面深度
- 12. 海葵忽略包含某个短语的网址链接
- 13. 防止子域被查看/爬取
- 14. 使用海葵在我的电脑上用ruby搜索文件和文件夹
- 15. 使用海葵宝石(非常大的网站)获取所有网址
- 16. 如何使用单个爬网程序对多个域进行爬网?
- 17. getfromLocation返回海洋或海域名称
- 18. 爬行使用CasperJS
- 19. 爬行使用Python
- 20. 爬行
- 21. 如何禁用指向主域相同根的子域的爬网程序?
- 22. 红宝石海葵蜘蛛中加入代码,每个URL访问
- 23. MOSS 2007爬行
- 24. Scrapy CSV爬行
- 25. 爬行itunes.apple.com
- 26. 爬行属性
- 27. 爬行amazon.com
- 28. 抓取单个域及其所有子网站的Java爬虫
- 29. 的Web爬行使用PHP
- 30. 用scrapy广泛爬行
为什么这是一个Rails或Nokogiri的问题? – 2012-02-15 18:14:47
我删除了rails和nokogiri标签:它们不是这个问题的核心。 – 2012-06-21 16:35:17