如何只使用海葵抓取子文件夹

我们可以使用海葵爬网（如：https://stackoverflow.com/），但如果我只想专注于某个文件夹（例如：https://stackoverflow.com/questions），该怎么办？我怎样才能做到这一点？也许用“focus_crawl”方法？如何只使用海葵抓取子文件夹

来源

2012-08-08 Ghilas BELHADJ

检查keep_if方法可能是这有助于

http://danneu.com/posts/8-scraping-a-blog-with-anemone-ruby-web-crawler-and-mongodb#toc_1

尝试，只要你想爬

也有一个要点https://gist.github.com/1149906传递模式。

注：我没有测试过，但你可以肯定试试。

来源

2012-08-08 17:28:04 PriteshJ

谢谢PriteshJ，但我终于找到了答案。我使用'on_pages_like'而不是'on_every_page'这样的模式：'on_pages_like（/ http：\/\/stackoverflow.com \/questions \ /。）'，它运行良好。再次感谢你 – 2012-08-08 18:03:57

然后我建议你给这个问题添加自己的答案，并将其标记为已接受。 :) – PriteshJ 2012-08-08 18:12:36

如何只使用海葵抓取子文件夹

回答

相关问题