Q

防止使用ScrAPI下载图像

2010-07-05 51 views 0 likes

0

我需要刮掉一些网站，并且希望避免从我正在抓取的网页下载图像 - 我只需要文本。我希望这会加快这个过程。关于如何管理这个的任何想法？防止使用ScrAPI下载图像

感谢，乔恩

2010-07-05 CHsurfer

+1

大声笑............ – hoju 2010-07-06 06:29:38

A

回答

2

虽然刮你不下载图像，但是参考IMG标签与整个body一起。在存储到数据库/渲染到视图之前，您总是可以删除服务器端的IMG标记。我建议你使用nokogiri来解析收到的内容并删除所有出现的IMG标记。

但是这并没有加快这个过程。它只是简单的旧html被刮。如果您希望快速获取并解析，请参阅Feedzirra，如果您正在处理订阅源或者Typhoeus仅提取html内容。

2010-07-05 08:28:15

+0

好的，谢谢你的解释。我会看看Typhoeus。 – CHsurfer 2010-07-05 12:01:07

相关问题