错误使用海葵

从网站获取URL列表

require 'anemone' 
Anemone.crawl("http://www.example.com/") do |anemone| 
    anemone.on_every_page do |page| 
    puts page.url 
    end 
end

当我尝试这个代码，我应该得到该网站上所有的URL列表，但我得到的是只是名字网站。什么可能是错误，我如何得到所有网址列表？

2012-09-04 Anu11

它工作正常。很明显，如果你在example.com上这样做，它只会显示http://www.example.com，因为只有这个页面。 – thoferon

我猜anemone不能跟随重定向或类似的东西，导致“http://example.com”在其他网站上重定向我。您是否尝试过抓取其他网站？例如，http://stackoverflow.com。

2012-09-04 09:11:49 railscard

是的，我也尝试过其他网站，但它不工作。 – Anu11

这只是一个代理错误，并且在设置终端代理后，它工作正常。是否有任何方法在代码设置中包含脚本本身？ – Anu11

当然，Anemone.crawl（url，{：proxy_host =>'您的代理主机'，：proxy_port =>'您的代理端口'}） – railscard

回答