2013-10-11 50 views
0

我需要从给定域的所有页面获取所有网址
我认为使用后台作业将它们放在多个队列
尝试使用cobweb但似乎非常混乱的宝石,
anomone,海葵工作很长一段时间,如果有很多的什么ü认为将最适合我
如何抓取网站的所有页面

require 'anemone' 

Anemone.crawl("http://www.example.com/") do |anemone| 
    anemone.on_every_page do |page| 
     puts page.links 
    end 
end 

+0

您是否需要为您的网站生成Sitemap? – ajkumar25

+0

@AjayKumar不,我只需要从站点获得所有链接 –

+0

wget httrack,还有其他许多蜘蛛可以使用 – Viren

回答

2

您可以使用Nutch履带,Apache Nutch是一个高度可扩展的,可扩展的开源网络爬虫软件项目。

+0

我认为蜘蛛网适合我最好 –