如何抓取网站的所有页面

我需要从给定域的所有页面获取所有网址
我认为使用后台作业将它们放在多个队列
尝试使用cobweb但似乎非常混乱的宝石，
和anomone，海葵工作很长一段时间，如果有很多的什么ü认为将最适合我
页如何抓取网站的所有页面

require 'anemone' 

Anemone.crawl("http://www.example.com/") do |anemone| 
    anemone.on_every_page do |page| 
     puts page.links 
    end 
end

？

您是否需要为您的网站生成Sitemap？ – ajkumar25

@AjayKumar不，我只需要从站点获得所有链接 –

wget httrack，还有其他许多蜘蛛可以使用 – Viren

您可以使用Nutch履带，Apache Nutch是一个高度可扩展的，可扩展的开源网络爬虫软件项目。

2013-10-11 13:19:11 ajkumar25

我认为蜘蛛网适合我最好 –

回答