2010-07-05 51 views
0

我需要刮掉一些网站,并且希望避免从我正在抓取的网页下载图像 - 我只需要文本。我希望这会加快这个过程。关于如何管理这个的任何想法?防止使用ScrAPI下载图像

感谢, 乔恩

+1

大声笑............ – hoju 2010-07-06 06:29:38

回答

2

虽然刮你不下载图像,但是参考IMG标签与整个body一起。在存储到数据库/渲染到视图之前,您总是可以删除服务器端的IMG标记。我建议你使用nokogiri来解析收到的内容并删除所有出现的IMG标记。

但是这并没有加快这个过程。它只是简单的旧html被刮。如果您希望快速获取并解析,请参阅Feedzirra,如果您正在处理订阅源或者Typhoeus仅提取html内容。

+0

好的,谢谢你的解释。我会看看Typhoeus。 – CHsurfer 2010-07-05 12:01:07