0
我有一个片段,可以在URL中成功抓取图像,事情是,我想从各种网站收集大量图像,并且我不能每次都手动放置URL 。刮一个页面的所有URL
由于我是新手,所以你们怎么面对这个?什么是刮去每个网址的最佳方式? 我需要URL中的CSV或其他东西吗?它是自动的吗?
我的脚本
URL = 'http://www.sitasde.com'
require 'rubygems'
require 'nokogiri'
require 'open-uri'
require 'uri'
def make_absolute(href, root)
URI.parse(root).merge(URI.parse(href)).to_s
end
Nokogiri::HTML(open(URL)).xpath("//img/@src").each do |src|
uri = make_absolute(src,URL)
File.open(File.basename(uri),'wb'){ |f| f.write(open(uri).read) }
end