0
我需要从给定域的所有页面获取所有网址
我认为使用后台作业将它们放在多个队列
尝试使用cobweb但似乎非常混乱的宝石,
和anomone,海葵工作很长一段时间,如果有很多的什么ü认为将最适合我
页如何抓取网站的所有页面
require 'anemone'
Anemone.crawl("http://www.example.com/") do |anemone|
anemone.on_every_page do |page|
puts page.links
end
end
?
您是否需要为您的网站生成Sitemap? – ajkumar25
@AjayKumar不,我只需要从站点获得所有链接 –
wget httrack,还有其他许多蜘蛛可以使用 – Viren