我使用Anemone来蜘蛛域,它工作正常。海葵红宝石蜘蛛 - 创建不带域名的键值数组
的代码来启动爬行看起来是这样的:
require 'anemone'
Anemone.crawl("http://www.example.com/") do |anemone|
anemone.on_every_page do |page|
puts page.url
end
end
这非常漂亮打印出所有的网页网址,像这样的域名:
http://www.example.com/
http://www.example.com/about
http://www.example.com/articles
http://www.example.com/articles/article_01
http://www.example.com/contact
我想这样做是使用键的url的最后一部分创建一个键值对的数组,并使用url的“减去域”作为值。
E.g.
[
['','/'],
['about','/about'],
['articles','/articles'],
['article_01','/articles/article_01']
]
道歉,如果这是基本的东西,但我是一个Ruby新手。
你所描述的所需输出不包含任何键值对(即散列)。这都是数组。 – Agis
如前所述,我是Ruby新手,所以我的标记插图和术语可能不正确。但是,如果你有什么更具建设性的提供那可爱。 –
理解“哈希”(键值对)和“数组”(有序对象列表)之间的区别非常重要,因此您不妨称此评论为“有建设性”。 – Agis